当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。
今天,知名 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里:
空间智能。

这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。
比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。
而现在,AI 即将获得它一直缺失的这种能力。

省流版如下:
1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式,并将在机器人、科学发现和创造力等领域引发变革。
空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。它是人类认知赖以构建的「脚手架」。
2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。
3. 李飞飞定义了世界模型必须具备的三种能力:
- 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。
- 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。
- 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。
4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战:
- 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。
- 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。
- 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。
5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。
6. 空间智能的应用将分阶段展开:
- 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。
- 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。
- 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。
7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。
从语言到世界:空间智能是人工智能的下一个前沿
1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。
在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。
如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。
- 1024程序员节京东开放“零帧起手”数字人技术
- 内置24000转/分钟风扇!红魔11 Pro图赏
- W47单品销量,小米17 Pro Max真牛,同档国产全没上榜
- 红魔11 Air证件照公布:骁龙8至尊版、7000mAh电池
- 贝尔金发布70W氮化镓三口快充头,售316元
- 英特尔Nova Lake曝光:旗舰52核怪兽,性能核IPC涨15%
- 一张图看懂智驾"安全公开课"嘉宾精彩观点
- 灵隐寺免门票首日入园名额已约满
- 黄河壶口瀑布现“彩虹横卧”景观
- 两个“1980” 苏翊鸣强势夺金
- 男子花1年定制2米高可通话摩托罗拉
- 长沙连续17年获中国最具幸福感城市
- 刘强东:未来机器人会完成所有工作
- 300元滑雪服被冻哭的年轻人焊身上了
- 退休老人不抢鸡蛋抢起了船票
- 大脑“断崖式衰老”的3个年龄
- 老君山景区拒绝用无人机取代挑山工
- 解读智己LS9,标配520线激光雷达+Thor芯片,究竟有啥不同?
- 联想提出RNL技术,通过多维感知等解决AI训练中的难题
- 曝特斯拉曾拆解多款中国电动汽车