DeepMind提出“帧链”概念,Veo 3 展现零样本视觉推理能力
2025年9月30日,谷歌旗下 DeepMind 团队正式发布其最新研究成果,提出“帧链”(Chain-of-Frames, CoF)理论,并基于生成式视频模型 Veo 3 展示了前所未有的零样本视觉推理能力。
受大型语言模型中“思维链”(Chain-of-Thought)启发,“帧链”将视频生成视为一种在时间和空间维度上逐步推理的过程。通过逐帧生成动态画面,Veo 3 能在未经过特定任务微调的情况下,完成从图像分割、物理建模到迷宫求解等复杂视觉任务。
研究团队构建了包含感知、建模、操控与推理的四层能力框架,系统评估 Veo 3 在超过 18,000 个生成视频中的表现。结果显示,该模型在 5×5 网格迷宫任务中成功率高达 78%(pass@10),远超前代模型 Veo 2 的 14%。
DeepMind 认为,正如 LLM 统一了自然语言处理领域,生成式视频模型正迈向成为机器视觉的通用基础模型。“帧链”的提出,标志着视觉 AI 从“感知工具”向“推理引擎”的关键跃迁。
相关论文《视频模型是零样本学习者和推理者》已发布于 arXiv(arXiv:2509.20328)。