李飞飞长文：空间智能是AI下一个前沿

数字前沿 · 发表于 25-11-11 23:16:58

12 px

26 px

斯坦福大学教授、WorldLabs联合创始人李飞飞于11月10日发表长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier（从文字到世界：空间智能是AI的下一个前沿）》，深入探讨了空间智能在人工智能发展中的重要性。

李飞飞指出，当前以大型语言模型为代表的AI技术虽擅长处理抽象知识，却缺乏对物理世界的真实理解，如同在“黑暗中行走”。而空间智能，即人类理解、导航并与三维世界交互的底层能力，将是实现机器真正智能的关键突破。她回顾了自己25年在AI领域的研究经历，提到构建ImageNet数据集以及将计算机视觉与机器人学习结合的努力，都是为了实现空间智能的可能性。

文章强调，空间智能在人类日常行为和创造力中扮演着根本性角色。从停车时的空间判断、接住扔来的钥匙，到消防员在烟雾中穿梭、孩子们通过与环境互动学习，空间智能都以直观、自动的方式发挥着作用。同时，它也是想象力和创造力的基础，从古代洞穴绘画到现代电影，再到沉浸式视频游戏，空间智能都构成了互动体验的基础。

然而，李飞飞也坦言，尽管AI在阅读、写作、研究和数据模式识别方面取得了显著进展，但在理解或互动物理世界时仍存在根本局限。最先进的AI模型在估算距离、方向、大小或旋转物体时表现不佳，无法导航迷宫或预测基本物理规律。因此，构建具有空间智能的AI成为下一个重要的研究目标。

为了实现这一目标，李飞飞提出了世界模型的概念，这是一种新型的生成模型，能够在理解、推理、生成以及与语义、物理、几何和动态复杂的世界交互方面远超当前的大型语言模型。她定义了世界模型的三个基本能力：生成性、多模态和交互性。生成性指世界模型能生成具有感知、几何和物理一致性的世界；多模态指世界模型能处理各种形式的输入；交互性则指世界模型能根据输入的操作输出下一个状态。

尽管构建具有空间智能的AI面临着严峻挑战，但李飞飞表示，WorldLabs的研究团队已经取得了一些根本性的进展，并分享了首个可以通过多模态输入进行提示的世界模型Marble的惊鸿一瞥。她相信，随着研究的加速，下一代世界模型将使机器达到一个全新的空间智能水平，释放当今AI系统中仍然缺失的关键能力。

[AI] 李飞飞长文：空间智能是AI下一个前沿

相关帖子

[AI] 李飞飞长文：空间智能是AI下一个前沿

相关帖子

注册