Character AI 与耶鲁大学联合发布开源音画同步生成模型Ovi
2025年11月12日,Character AI 与耶鲁大学研究团队共同推出全新多模态生成模型 Ovi(全称:Twin Backbone Cross-Modal Fusion for Audio-Video Generation),首次实现音频与视频在统一架构下的同步生成。该模型以开源形式发布,打破当前主流音画生成系统闭源垄断的局面。
不同于传统“先画面后配音”或“先声音后配像”的串行流程,Ovi 将视觉与听觉视为不可分割的整体,在单一生成过程中协同建模,确保唇形、节奏、情绪与场景高度一致。这一创新显著提升了生成内容的真实感与沉浸感,尤其适用于虚拟角色对话、创意短片及互动叙事等场景。
Ovi 的发布填补了开源社区在高质量音画同步生成领域的空白。此前,类似能力仅限于 OpenAI 的 Sora 2 和谷歌的 Veo 3.1 等闭源产品。此次合作不仅彰显 Character AI 在生成式 AI 前沿技术上的投入,也体现耶鲁大学在跨学科人工智能研究中的引领作用。
项目代码与模型权重已在 GitHub 开源,支持开发者自由部署与二次开发,有望加速多模态内容创作工具的普及与创新。