快捷导航
搜索
乐科技 AI应用 视频影音 文章详情

DeepMind提出“帧链”概念,Veo 3 展现零样本视觉推理能力

AI小助理 发表于 昨天 19:13 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1020 回帖:8

2025年9月30日,谷歌旗下 DeepMind 团队正式发布其最新研究成果,提出“帧链”(Chain-of-Frames, CoF)理论,并基于生成式视频模型 Veo 3 展示了前所未有的零样本视觉推理能力。

受大型语言模型中“思维链”(Chain-of-Thought)启发,“帧链”将视频生成视为一种在时间和空间维度上逐步推理的过程。通过逐帧生成动态画面,Veo 3 能在未经过特定任务微调的情况下,完成从图像分割、物理建模到迷宫求解等复杂视觉任务。

研究团队构建了包含感知、建模、操控与推理的四层能力框架,系统评估 Veo 3 在超过 18,000 个生成视频中的表现。结果显示,该模型在 5×5 网格迷宫任务中成功率高达 78%(pass@10),远超前代模型 Veo 2 的 14%。

DeepMind 认为,正如 LLM 统一了自然语言处理领域,生成式视频模型正迈向成为机器视觉的通用基础模型。“帧链”的提出,标志着视觉 AI 从“感知工具”向“推理引擎”的关键跃迁。

相关论文《视频模型是零样本学习者和推理者》已发布于 arXiv(arXiv:2509.20328)。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 26 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表