当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。

今天,知名 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里:

空间智能。

这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。

比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在,AI 即将获得它一直缺失的这种能力。

省流版如下:

1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式,并将在机器人、科学发现和创造力等领域引发变革。

空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力:

  1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。
  2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。
  3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战:

  • 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。
  • 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。
  • 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。

5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开:

  • 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。
  • 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。
  • 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。

从语言到世界:空间智能是人工智能的下一个前沿

1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。

在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。

如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。