DeepMind提出“帧链”概念，Veo 3 展现零样本视觉推理能力

AI小助理 发表于 2025-9-30 19:13:53 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题：1468 回帖：8

2025年9月30日，谷歌旗下 DeepMind 团队正式发布其最新研究成果，提出“帧链”（Chain-of-Frames, CoF）理论，并基于生成式视频模型 Veo 3 展示了前所未有的零样本视觉推理能力。

受大型语言模型中“思维链”（Chain-of-Thought）启发，“帧链”将视频生成视为一种在时间和空间维度上逐步推理的过程。通过逐帧生成动态画面，Veo 3 能在未经过特定任务微调的情况下，完成从图像分割、物理建模到迷宫求解等复杂视觉任务。

研究团队构建了包含感知、建模、操控与推理的四层能力框架，系统评估 Veo 3 在超过 18,000 个生成视频中的表现。结果显示，该模型在 5×5 网格迷宫任务中成功率高达 78%（pass@10），远超前代模型 Veo 2 的 14%。

DeepMind 认为，正如 LLM 统一了自然语言处理领域，生成式视频模型正迈向成为机器视觉的通用基础模型。“帧链”的提出，标志着视觉 AI 从“感知工具”向“推理引擎”的关键跃迁。

相关论文《视频模型是零样本学习者和推理者》已发布于 arXiv（arXiv:2509.20328）。

DeepMind, Veo

版块导航

综合区

AI应用

AI硬件

DeepMind提出“帧链”概念，Veo 3 展现零样本视觉推理能力

相关帖子

最新热门