vivo联合团队推出轻量级AI修图框架VeraRetouch,通过可微分渲染器实现端到端专业修图
vivo影像创新实验室BlueImage Lab与浙江大学、之江实验室、中国科学院大学的研究团队联合发布了一项名为VeraRetouch的轻量级照片修图框架。该研究旨在解决传统AI修图方案存在的端到端优化困难、模型庞大不适配移动端等痛点。
VeraRetouch的核心创新在于将一个0.6B参数的视觉语言模型用作“修图大脑”,负责理解图像内容和用户指令,并生成修图推理;同时,它设计了一个全可微分的Retouch Renderer作为“修图执行器”,替代了传统不可微分的外部修图软件,使得整个修图流程可以在模型内部闭环完成,并支持端到端的像素级监督训练。 框架将修图操作分解为光照、全局色彩和特定色彩三个独立的控制维度,这与专业修图流程高度一致。基于此,VeraRetouch支持三种面向真实用户的任务:一是自动修图,模型自动分析照片问题并优化;二是风格修图,用户可通过“温暖秋日感”等自然语言描述来驱动风格转换;三是参数修图,模型能根据曝光、色温等具体参数指令进行精确调整。为了训练模型,团队构建了包含超过100万条数据的专业修图数据集AetherRetouch-1M+,其中采用了“反向退化”等创新方法生成训练样本,并加入了结构化的推理过程数据。
在技术架构上,VeraRetouch基于FastVLM-0.5B模型构建,通过专门设计的retouch tokens将模型高层推理映射到底层渲染器的控制信号。此外,团队还提出了DAPO-AE后训练策略,通过审美奖励引导模型生成更符合人类偏好的结果。
实验结果证明,VeraRetouch在PSNR、SSIM、LPIPS等多个基准测试中取得了领先成绩,例如在FiveK-Bench上PSNR达到26.85 dB,超越了Flux.1 Kontext等基线方法。 在效率与部署方面,VeraRetouch在H20 GPU上处理512p图像仅需6.90秒,在MacBook Air M4上约为7.46秒,在iPhone 16 Pro上约为13.56秒,显示了其面向移动端部署的潜力。用户盲评研究也表明,该框架在视觉美感、指令一致性和纹理保持方面均获得最高偏好。论文同时指出,模型在处理分布外参数和局部精细编辑能力上仍有提升空间,未来可探索引入像素级mask机制。这项工作为专业级AI修图在移动设备上的落地提供了新的轻量化解决方案。
|
|
|
|
|
|
|