谷歌下一代AI视频生成模型Veo 4(或名为Gemini Omni)在官方I/O大会前夕被意外泄露。根据公开信息,该模型实现了重大技术突破,首次支持在生成视频中实现流畅的多机位切换,这意味着AI可以从不同视角讲述同一个场景,并保持物理、空间和时间的一致性。这标志着AI视频从单一的“短视频素材工具”向具备导演思维的“叙事生产力工具”进行跃迁。
此外,Veo 4升级了原生音频功能,能够同步生成对话、环境音,并新增根据场景自动生成背景音乐的能力,补齐了AI视频成片的关键拼图。泄露内容指出,虽然部分示例仍存在连贯性问题,但多机位场景已展现出惊人潜力。此次泄露被置于OpenAI的Sora服务因高成本、低留存而关停的背景下,凸显了谷歌在AI视频赛道的技术自信与商业策略。与此同时泄露信息还提到了一系列即将发布的Gemini模型以及为Omni模型配备Agent版本的计划,暗示谷歌将在I/O大会上全面展示其多模态与Agent生态布局。