发帖
客户端
扫码下载

[AI] 李飞飞长文:空间智能是AI下一个前沿

[复制链接]
3 |0
数字前沿 发表于 昨天 23:16 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
斯坦福大学教授、WorldLabs联合创始人李飞飞于11月10日发表长文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier(从文字到世界:空间智能是AI的下一个前沿)》,深入探讨了空间智能在人工智能发展中的重要性。

李飞飞指出,当前以大型语言模型为代表的AI技术虽擅长处理抽象知识,却缺乏对物理世界的真实理解,如同在“黑暗中行走”。而空间智能,即人类理解、导航并与三维世界交互的底层能力,将是实现机器真正智能的关键突破。她回顾了自己25年在AI领域的研究经历,提到构建ImageNet数据集以及将计算机视觉与机器人学习结合的努力,都是为了实现空间智能的可能性。

文章强调,空间智能在人类日常行为和创造力中扮演着根本性角色。从停车时的空间判断、接住扔来的钥匙,到消防员在烟雾中穿梭、孩子们通过与环境互动学习,空间智能都以直观、自动的方式发挥着作用。同时,它也是想象力和创造力的基础,从古代洞穴绘画到现代电影,再到沉浸式视频游戏,空间智能都构成了互动体验的基础。

然而,李飞飞也坦言,尽管AI在阅读、写作、研究和数据模式识别方面取得了显著进展,但在理解或互动物理世界时仍存在根本局限。最先进的AI模型在估算距离、方向、大小或旋转物体时表现不佳,无法导航迷宫或预测基本物理规律。因此,构建具有空间智能的AI成为下一个重要的研究目标。

为了实现这一目标,李飞飞提出了世界模型的概念,这是一种新型的生成模型,能够在理解、推理、生成以及与语义、物理、几何和动态复杂的世界交互方面远超当前的大型语言模型。她定义了世界模型的三个基本能力:生成性、多模态和交互性。生成性指世界模型能生成具有感知、几何和物理一致性的世界;多模态指世界模型能处理各种形式的输入;交互性则指世界模型能根据输入的操作输出下一个状态。

尽管构建具有空间智能的AI面临着严峻挑战,但李飞飞表示,WorldLabs的研究团队已经取得了一些根本性的进展,并分享了首个可以通过多模态输入进行提示的世界模型Marble的惊鸿一瞥。她相信,随着研究的加速,下一代世界模型将使机器达到一个全新的空间智能水平,释放当今AI系统中仍然缺失的关键能力。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码讨论
畅谈数码,分享心得。
快速回复 返回顶部 返回列表