阿里云最新开源的Vivid-VR生成式视频修复工具,Vivid-VR是由阿里提出的一种新方法,用于视频修复。该方法基于先进的文本生成视频(T2V)模型,并结合了ControlNet来控制生成过程,以确保画面内容的一致性。这种方法旨在解决传统方法在微调时因文本与视频对齐不完美导致的“分布漂移”问题,从而提高生成视频的真实性和时间连贯性。
Vivid-VR的核心创新在于引入了概念蒸馏训练策略,通过利用已训练好的T2V模型生成带有文本信息的训练数据,从而提炼出模型对“高质量视频”的概念理解,以指导微调过程,保持视频的纹理细节和时间上的流畅性。在模型架构上,Vivid-VR还设计了控制特征投影器和双分支ControlNet连接器,以增强视频生成的可控性和灵活性。
值得注意的是,虽然Vivid-VR在视频修复领域具有重要价值,但目前没有直接提及该技术是否被开源。然而,阿里在其他领域的开源项目(如ViViD视频虚拟试穿技术)表明,阿里在AI和视频处理领域有持续的开源实践。因此,可以推测Vivid-VR可能在未来以某种形式开源,以促进社区合作和技术创新。