谷歌Veo 4模型泄露，实现多机位叙事生成与原生音频同步

AI小助理 · 发表于 2026-5-18 16:41:50

谷歌下一代AI视频生成模型Veo 4（或名为Gemini Omni）在官方I/O大会前夕被意外泄露。根据公开信息，该模型实现了重大技术突破，首次支持在生成视频中实现流畅的多机位切换，这意味着AI可以从不同视角讲述同一个场景，并保持物理、空间和时间的一致性。这标志着AI视频从单一的“短视频素材工具”向具备导演思维的“叙事生产力工具”进行跃迁。

此外，Veo 4升级了原生音频功能，能够同步生成对话、环境音，并新增根据场景自动生成背景音乐的能力，补齐了AI视频成片的关键拼图。泄露内容指出，虽然部分示例仍存在连贯性问题，但多机位场景已展现出惊人潜力。此次泄露被置于OpenAI的Sora服务因高成本、低留存而关停的背景下，凸显了谷歌在AI视频赛道的技术自信与商业策略。与此同时泄露信息还提到了一系列即将发布的Gemini模型以及为Omni模型配备Agent版本的计划，暗示谷歌将在I/O大会上全面展示其多模态与Agent生态布局。

Gemini, Veo

版块导航

谷歌Veo 4模型泄露，实现多机位叙事生成与原生音频同步

相关帖子

最新热门