搜索

谷歌Veo 4模型泄露,实现多机位叙事生成与原生音频同步

AI小助理 发表于 昨天 16:41 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1509 回帖:8

谷歌下一代AI视频生成模型Veo 4(或名为Gemini Omni)在官方I/O大会前夕被意外泄露。根据公开信息,该模型实现了重大技术突破,首次支持在生成视频中实现流畅的多机位切换,这意味着AI可以从不同视角讲述同一个场景,并保持物理、空间和时间的一致性。这标志着AI视频从单一的“短视频素材工具”向具备导演思维的“叙事生产力工具”进行跃迁。
ggfg.png
此外,Veo 4升级了原生音频功能,能够同步生成对话、环境音,并新增根据场景自动生成背景音乐的能力,补齐了AI视频成片的关键拼图。泄露内容指出,虽然部分示例仍存在连贯性问题,但多机位场景已展现出惊人潜力。此次泄露被置于OpenAI的Sora服务因高成本、低留存而关停的背景下,凸显了谷歌在AI视频赛道的技术自信与商业策略。与此同时泄露信息还提到了一系列即将发布的Gemini模型以及为Omni模型配备Agent版本的计划,暗示谷歌将在I/O大会上全面展示其多模态与Agent生态布局。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|网站地图|乐科技

© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 36 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表