小米多模态大模型Xiaomi MiMo-VL正式开源，性能领先同尺寸标杆模型

数字前沿 发表于 25-5-30 19:59:18

Xiaomi MiMo官方公众号今日宣布，小米多模态大模型Xiaomi MiMo-VL现已正式开源。该模型在图片、视频、语言的通用问答和理解推理等多个任务上表现出色，大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，并且在GUI Grounding任务上比肩专用模型，为Agent时代的发展注入了新的活力。

MiMo-VL-7B在保持MiMo-7B纯文本推理能力的同时，在多模态推理任务上展现出了强大的实力。仅用7B参数规模，该模型在奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse）中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，甚至超越了闭源模型GPT-4o。在内部大模型竞技场的评估中，MiMo-VL-7B也超越了GPT-4o，成为开源模型中的佼佼者。

该模型能够完成复杂图片推理和问答等任务，在长达10多步的GUI操作上也展示了不错的潜力，甚至能辅助用户完成加购小米SU7至心愿单等操作。

为了实现这一卓越性能，MiMo-VL-7B采用了高质量的预训练数据以及创新的混合在线强化学习算法（MORL）。其预训练过程分为多阶段，收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量多模态数据，总计2.4T tokens。通过分阶段调整不同类型数据的比例，强化了长程多模态推理的能力。同时，混合文本推理、多模态感知+推理、RLHF等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升了模型的推理、感知性能和用户体验。

目前，MiMo-VL-7B已开源RL前后两个模型，并附有开源链接及相关技术报告。同时，支持50+测评任务的框架也已经开源至GitHub，方便开发者进行进一步的研究和应用。

页: [1]

NekoTeco's Archiver

小米多模态大模型Xiaomi MiMo-VL正式开源，性能领先同尺寸标杆模型