蚂蚁集团宣布开源全模态大模型 Ming-Flash-Omni 2.0,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键领域展现出显著优势。作为业界首个全场景音频统一生成模型,Ming-Flash-Omni 2.0 实现了语音、环境音效与音乐在单音轨中的同步生成,用户可通过自然语言指令对音色、语速、语调、音量、情绪及方言等参数进行精细控制。
在技术实现层面,该模型采用 Ling-2.0 架构(MoE,100B-A6B)训练,围绕"看得更准、听得更细、生成更稳"三大核心目标进行优化。视觉模块通过融合亿级细粒度数据与难例训练策略,显著提升了对近缘动植物、工艺细节等复杂对象的识别能力;音频模块支持零样本音色克隆与定制,在动态场景中仍能保持高保真输出;图像模块则增强了复杂编辑的稳定性,支持光影调整、场景替换等高级功能。
值得关注的是,Ming-Flash-Omni 2.0 在推理效率方面取得突破性进展,实现3.1Hz的极低推理帧率与分钟级长音频的实时生成,成本控制达到业界领先水平。该模型通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源前沿,在部分领域甚至超越顶级专用模型。目前,模型权重与推理代码已在主流开源社区发布,开发者可通过蚂蚁百灵官方平台进行在线体验与调用。
蚂蚁集团百灵模型负责人周俊透露,团队将持续优化视频时序理解、复杂图像编辑等核心功能,完善工具链与评测体系。此次开源标志着全模态技术从实验室研究向规模化落地迈出关键一步,通过统一架构实现多模态能力的深度融合,为端到端多模态应用开发提供了标准化解决方案。 |