地平线正式宣布其HoloBrain-0基座模型及框架全面开源,这一举措不仅涵盖了HoloBrain-0核心算法,还同步开放了完整的基础设施RoboOrchard,为具身智能领域的研究与应用注入了新的活力。
从基础模型研究到可靠的机器人真机部署,一直存在着“最后一公里”的巨大挑战。为此,地平线此次开源的HoloBrain-0,是一个专为具身智能设计的全栈Vision-Language-Action (VLA) 框架。与传统VLA模型仅依赖“视觉到动作”的黑盒映射不同,HoloBrain-0首创性地在架构中显式注入了“具身先验”,将多视角相机参数与机器人运动学结构等机器人本体相关的先验信息融入模型,从而大幅提升了其三维空间理解能力,使模型具备了统一的3D空间感知与跨本体控制能力。
在实际应用中,HoloBrain-0展现出了卓越的泛化能力。它能够灵活适配单机械臂、双机械臂、移动机器人乃至人类数据等多种机器人形态,无论是柔软衣物的灵巧折叠,还是未知物体的通用抓取,都能应对自如。此次开源不仅提供了基座模型,还推出了仅有0.2B参数的端侧友好版本,以及全栈基础设施RoboOrchard,形成了一套“开箱即用”的开源生态,显著降低了具身智能的研发门槛。
在预训练阶段,HoloBrain融合了多本体遥操作数据、人类视频数据以及仿真数据开展联合训练,使模型能够充分学习异构数据中隐含的动作流形。经过后训练,HoloBrain在RoboTwin 2.0、LIBERO、GenieSim等多个仿真基准测试中取得了业界领先的成果,并在多样化的真实机器人任务中展现出良好的稳健性。
在硬件适配方面,HoloBrain的轻量化GD版本(0.2B)可高效适配地瓜机器人RDK S100机器人开发者套件,未来有望进一步释放端侧算力潜力,推动具身智能模型在端侧硬件平台上的规模化部署。 |