[AI] 小米多模态大模型Xiaomi MiMo-VL正式开源,性能领先同尺寸标杆模型

[复制链接]
4 |0
数字前沿 发表于 前天 19:59 | 显示全部楼层 |阅读模式    IP属地:广东东莞
Xiaomi MiMo官方公众号今日宣布,小米多模态大模型Xiaomi MiMo-VL现已正式开源。该模型在图片、视频、语言的通用问答和理解推理等多个任务上表现出色,大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,并且在GUI Grounding任务上比肩专用模型,为Agent时代的发展注入了新的活力。

MiMo-VL-7B在保持MiMo-7B纯文本推理能力的同时,在多模态推理任务上展现出了强大的实力。仅用7B参数规模,该模型在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了闭源模型GPT-4o。在内部大模型竞技场的评估中,MiMo-VL-7B也超越了GPT-4o,成为开源模型中的佼佼者。

该模型能够完成复杂图片推理和问答等任务,在长达10多步的GUI操作上也展示了不错的潜力,甚至能辅助用户完成加购小米SU7至心愿单等操作。

为了实现这一卓越性能,MiMo-VL-7B采用了高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。其预训练过程分为多阶段,收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量多模态数据,总计2.4T tokens。通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。同时,混合文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。

目前,MiMo-VL-7B已开源RL前后两个模型,并附有开源链接及相关技术报告。同时,支持50+测评任务的框架也已经开源至GitHub,方便开发者进行进一步的研究和应用。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表