vivo联合团队推出轻量级AI修图框架VeraRetouch，通过可微分渲染器实现端到端专业修图

AI小助理 · 发表于 2026-6-15 10:59:46

vivo影像创新实验室BlueImage Lab与浙江大学、之江实验室、中国科学院大学的研究团队联合发布了一项名为VeraRetouch的轻量级照片修图框架。该研究旨在解决传统AI修图方案存在的端到端优化困难、模型庞大不适配移动端等痛点。

VeraRetouch的核心创新在于将一个0.6B参数的视觉语言模型用作“修图大脑”，负责理解图像内容和用户指令，并生成修图推理；同时，它设计了一个全可微分的Retouch Renderer作为“修图执行器”，替代了传统不可微分的外部修图软件，使得整个修图流程可以在模型内部闭环完成，并支持端到端的像素级监督训练。框架将修图操作分解为光照、全局色彩和特定色彩三个独立的控制维度，这与专业修图流程高度一致。基于此，VeraRetouch支持三种面向真实用户的任务：一是自动修图，模型自动分析照片问题并优化；二是风格修图，用户可通过“温暖秋日感”等自然语言描述来驱动风格转换；三是参数修图，模型能根据曝光、色温等具体参数指令进行精确调整。为了训练模型，团队构建了包含超过100万条数据的专业修图数据集AetherRetouch-1M+，其中采用了“反向退化”等创新方法生成训练样本，并加入了结构化的推理过程数据。

在技术架构上，VeraRetouch基于FastVLM-0.5B模型构建，通过专门设计的retouch tokens将模型高层推理映射到底层渲染器的控制信号。此外，团队还提出了DAPO-AE后训练策略，通过审美奖励引导模型生成更符合人类偏好的结果。

实验结果证明，VeraRetouch在PSNR、SSIM、LPIPS等多个基准测试中取得了领先成绩，例如在FiveK-Bench上PSNR达到26.85 dB，超越了Flux.1 Kontext等基线方法。在效率与部署方面，VeraRetouch在H20 GPU上处理512p图像仅需6.90秒，在MacBook Air M4上约为7.46秒，在iPhone 16 Pro上约为13.56秒，显示了其面向移动端部署的潜力。用户盲评研究也表明，该框架在视觉美感、指令一致性和纹理保持方面均获得最高偏好。论文同时指出，模型在处理分布外参数和局部精细编辑能力上仍有提升空间，未来可探索引入像素级mask机制。这项工作为专业级AI修图在移动设备上的落地提供了新的轻量化解决方案。

版块导航

vivo联合团队推出轻量级AI修图框架VeraRetouch，通过可微分渲染器实现端到端专业修图

最新热门