李飞飞最新长文刷屏，AI 下一个十年最需要的不是大模型

当 ChatGPT 震惊世界时，我们以为 AI 已经足够聪明。但它依然做不到一件事：准确判断你伸手去够桌边咖啡杯时，手指距离杯沿还有多少厘米。

今天，知名 AI 学者李飞飞用一篇博客回答了这个问题：真正的智能不只是文字游戏，而是藏在一个我们每天都在使用却从未意识到的能力里：

空间智能。

这是一种比语言更古老的智能，改变人类文明的时刻，从来依靠的都不是语言，而是对空间的感知、想象与推理。

比如古希腊学者通过观察影子计算出地球周长，科学家摆弄金属丝拼出DNA的双螺旋结构，消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在，AI 即将获得它一直缺失的这种能力。

省流版如下：

1. 当前 AI（特别是大型语言模型 LLM）虽然那改变了我们运用抽象知识的方式，语言能力很强，却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式，并将在机器人、科学发现和创造力等领域引发变革。

空间智能是人类智能的基石，甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动（如驾驶、接住钥匙），也是人类想象力、创造力和科学发现（如古希腊测量地球周长、DNA 双螺旋结构的发现）的核心。它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型（MLLM）有所进步，但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向，无法在脑中「旋转」物体，也无法预测基本的物理规律。AI 缺乏这种能力，就无法真正与物理现实建立联系。要实现空间智能，我们需要超越 LLM，构建更具雄心的「世界模型」。这是一种全新的生成式模型，其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力：

生成性 (Generative)：能够生成在感知、几何和物理规律上保持一致性的世界。
多模态性 (Multimodal)：天生设计为多模态，能处理和输出多种形式的信息（如图像、视频、深度图、文字、动作）。
交互性 (Interactive)：能够根据输入的「动作」，预测或输出世界的「下一个状态」，并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为，构建世界模型远比构建语言模型困难，因为世界的维度远超语言。这需要克服三大挑战：

新的训练任务：需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数，但难度更高。
大规模数据：需要能从海量的互联网图像和视频中提取深层空间信息，并辅以合成数据和多模态数据。
新的模型架构：需要超越当前 1D/2D 序列范式，发展出具备 3D 或 4D 感知能力的新架构（比如 World Labs 的 RTFM 模型）。

5. AI 应当增强人类的能力，而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现，它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开：

近期（创造力）：赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台，帮助创作者构建 3D 世界。
中期（机器人学）：实现「行动中的具身智能」。世界模型将通过模拟训练，使机器人成为人类的协作助手。
长期（科学、医疗与教育）：在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能，「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力，将这项技术用来造福全世界。

从语言到世界：空间智能是人工智能的下一个前沿

1950 年，当计算机还只是自动化运算和简单逻辑的工具时，Alan Turing 提出了一个至今仍回荡的问题：机器能思考吗？他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的，而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能（AI）」的不懈科学探索。

在我从事人工智能研究的二十五年里，Turing 的远见依然激励着我。但我们离那个目标还有多远？这个问题并不容易回答。

如今，领先的人工智能技术——例如大型语言模型（LLM）——已经开始改变我们获取和运用抽象知识的方式。然而，它们依然像在黑暗中打磨文字的匠人：语言优美，却缺乏经验；知识丰富，却未真正立足于现实。空间智能（Spatial Intelligence）将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。