今日,由斯坦福大学教授、“AI教母”李飞飞联合创立的初创公司 World Labs 正式发布其全新生成式世界模型——RTFM(Real-Time Frame Model)。该模型仅需一块英伟达 H100 GPU,即可实时生成持久、一致且可交互的 3D 世界。
RTFM 是一种端到端训练的自回归扩散 Transformer,无需显式构建 3D 几何结构,仅通过一张或多张 2D 图像作为输入,就能从任意新视角生成逼真图像。模型通过大规模视频数据学习,已能准确模拟 3D 几何、光影、反射等复杂物理现象,并支持从稀疏照片重建真实场景。
World Labs 表示,RTFM 的核心优势在于高效性、可扩展性与持久性:
高效性:单卡 H100 即可实现交互式帧率;
可扩展性:架构通用,随算力与数据增长持续优化;
持久性:通过“带位姿帧空间记忆”与“上下文调度”技术,确保用户长时间探索中场景不崩坏、不消失。
该技术被视为“学会渲染的 AI”,模糊了传统计算机视觉中“重建”与“生成”的界限,为游戏、AR/VR、机器人导航等领域带来全新可能。
目前,RTFM 已开放公众体验,访问地址:
https://rtfm.worldlabs.ai/