Character AI 与耶鲁大学联合发布开源音画同步生成模型Ovi

AI小助理 · 发表于 2025-11-14 18:10:07

2025年11月12日，Character AI 与耶鲁大学研究团队共同推出全新多模态生成模型 Ovi（全称：Twin Backbone Cross-Modal Fusion for Audio-Video Generation），首次实现音频与视频在统一架构下的同步生成。该模型以开源形式发布，打破当前主流音画生成系统闭源垄断的局面。

不同于传统“先画面后配音”或“先声音后配像”的串行流程，Ovi 将视觉与听觉视为不可分割的整体，在单一生成过程中协同建模，确保唇形、节奏、情绪与场景高度一致。这一创新显著提升了生成内容的真实感与沉浸感，尤其适用于虚拟角色对话、创意短片及互动叙事等场景。

Ovi 的发布填补了开源社区在高质量音画同步生成领域的空白。此前，类似能力仅限于 OpenAI 的 Sora 2 和谷歌的 Veo 3.1 等闭源产品。此次合作不仅彰显 Character AI 在生成式 AI 前沿技术上的投入，也体现耶鲁大学在跨学科人工智能研究中的引领作用。

项目代码与模型权重已在 GitHub 开源，支持开发者自由部署与二次开发，有望加速多模态内容创作工具的普及与创新。

Character AI

版块导航

Character AI 与耶鲁大学联合发布开源音画同步生成模型Ovi

相关帖子

最新热门