数字前沿 发表于 25-5-30 19:59:18

小米多模态大模型Xiaomi MiMo-VL正式开源,性能领先同尺寸标杆模型

Xiaomi MiMo官方公众号今日宣布,小米多模态大模型Xiaomi MiMo-VL现已正式开源。该模型在图片、视频、语言的通用问答和理解推理等多个任务上表现出色,大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,并且在GUI Grounding任务上比肩专用模型,为Agent时代的发展注入了新的活力。

MiMo-VL-7B在保持MiMo-7B纯文本推理能力的同时,在多模态推理任务上展现出了强大的实力。仅用7B参数规模,该模型在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了闭源模型GPT-4o。在内部大模型竞技场的评估中,MiMo-VL-7B也超越了GPT-4o,成为开源模型中的佼佼者。

该模型能够完成复杂图片推理和问答等任务,在长达10多步的GUI操作上也展示了不错的潜力,甚至能辅助用户完成加购小米SU7至心愿单等操作。

为了实现这一卓越性能,MiMo-VL-7B采用了高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。其预训练过程分为多阶段,收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量多模态数据,总计2.4T tokens。通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。同时,混合文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。

目前,MiMo-VL-7B已开源RL前后两个模型,并附有开源链接及相关技术报告。同时,支持50+测评任务的框架也已经开源至GitHub,方便开发者进行进一步的研究和应用。
页: [1]
查看完整版本: 小米多模态大模型Xiaomi MiMo-VL正式开源,性能领先同尺寸标杆模型