知名人工智能学者、斯坦福大学教授李飞飞近日发表万字长文,提出一个颠覆性观点:
AI 的未来不在于继续堆叠参数规模,而在于掌握“空间智能”(Spatial Intelligence)——即对物理世界的感知、推理与交互能力。
她指出,当前以大型语言模型(LLM)为代表的 AI 虽能流畅生成文本,却如同“黑暗中的文字匠人”,缺乏对真实三维世界的理解。它们无法判断咖啡杯的距离、预测物体运动轨迹,更难以在复杂环境中安全行动——这些恰恰是人类从婴儿期就具备的基本能力。
李飞飞将空间智能称为“人类认知的脚手架”,并列举历史案例佐证其重要性:古希腊学者通过影子测算地球周长、沃森与克里克用手搭建 DNA 双螺旋模型……这些突破皆依赖于对空间结构的直觉与操作,而非语言推理。
为此,她与团队于2024年初创立 World Labs,致力于构建新一代“世界模型”(World Models)。这类模型需具备三大核心能力:
生成性:创建几何与物理一致的3D/4D虚拟世界;
多模态性:融合图像、视频、深度图、文本与动作等输入;
交互性:根据用户动作预测环境下一状态,甚至规划行动。
她透露,World Labs 已推出首个原型平台 Marble,允许创作者通过自然语言或图像快速生成可交互的3D场景,应用于电影、游戏与建筑设计。
李飞飞强调,AI 的终极目标应是“增强人类”,而非取代人类。“空间智能将赋能科学家、护理人员、教师和艺术家,帮助他们实现曾经不可能的任务。”她呼吁全球研究者、工程师与政策制定者共同投入这一新前沿:“没有空间智能,真正的智能机器永远只是幻想。”