小米集团今日正式宣布推出具身大模型MiMo-Embodied,并全面开源该模型及其代码。随着具身智能技术逐步融入家居场景、自动驾驶技术迈向规模化应用,行业内对于机器人与车辆如何实现认知与能力互通的探讨日益深入。小米此次推出的MiMo-Embodied,正是为了解决室内作业智能与室外驾驶智能能否相互促进的难题。
MiMo-Embodied作为业界首个成功打通自动驾驶与具身智能的跨域具身基座模型,实现了两大领域任务的统一建模,这标志着通用具身智能研究从“垂直领域专用”向“跨域能力协同”迈出了关键一步。该模型具有三大核心技术亮点:首先是跨域能力覆盖,能够同步支持具身智能的三大核心任务(可供性推理、任务规划、空间理解)与自动驾驶的三大关键任务(环境感知、状态预测、驾驶规划),形成全场景智能支撑;其次是双向协同赋能,验证了室内交互能力与道路决策能力的知识转移协同效应,为跨场景智能融合提供了新思路;最后是全链优化可靠,采用“具身/自驾能力学习→CoT推理增强→RL精细强化”的多阶段训练策略,有效提升了模型在真实环境中的部署可靠性。
在涵盖感知、决策与规划的29项核心基准测试中,MiMo-Embodied确立了开源基座模型的性能新标杆,全面优于现有的开源、闭源及专用模型。具体而言,在具身智能领域,该模型在17个基准测试上取得了SOTA(最优)成绩,重新定义了任务规划、可供性预测及空间理解的能力边界;在自动驾驶领域,则在12个基准测试上表现卓越,实现了环境感知、状态预测与驾驶规划的全链路性能突破。此外,在通用视觉语言领域,MiMo-Embodied也展现了卓越的泛化性,进一步夯实了通用感知与理解能力,并在多项关键基准上实现了显著的性能跃升。 |