英伟达Jim Fan指出机器人物理AI将复制大语言模型路径,预计2040年实现全面突破。
在红杉资本AI Ascent会议上,英伟达机器人研究负责人Jim Fan分享了关于机器人物理AI未来的重要观点。他指出,机器人领域可以完整复制大语言模型的发展路径,通过预训练、监督微调和强化学习三个阶段实现突破。
Jim Fan批评了当前视觉语言动作模型(VLA)的局限性,认为其参数偏向语言而忽略物理规律,并提出世界动作模型(WAM)如Dream Zero,该模型能联合输出下一世界状态和动作,实现零样本泛化。
在数据策略方面,他介绍了从遥操作到EgoScale的转变,EgoScale使用人类第一视角视频预训练灵巧手,仅需少量遥操作数据,大幅降低数据采集成本。此外,强化学习与神经物理引擎如Dream Dojo将扩展环境规模,通过算力等价环境和数据
。Jim Fan将机器人未来比作文明游戏的科技树,需要解锁三个成就:通过物理图灵测试、实现物理API和物理自动研究,预计在2040年完成整条科技树,他对此有95%的把握。这次演讲强调了物理AI的快速进展,以及视频生成模型在学习物理规律中的作用。
|
|
|
|
|
|
|
|