发帖
客户端
扫码下载
打印 上一主题 下一主题

[AI] 小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

[复制链接]
3 |0
跳转到指定楼层
楼主
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
小米今天宣布了一个重要举措,即开源其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这款模型在语音领域实现了基于ICL(上下文学习)的少样本泛化,为语音技术的发展开辟了新的道路。

据小米介绍,五年前GPT-3首次展示了通过自回归语言模型与大规模无标注数据训练,获得In-Context Learning(ICL)能力的重要性。然而,在语音领域,现有的大模型仍然严重依赖大规模标注数据,难以快速适应新任务并达到类人智能的水平。Xiaomi-MiMo-Audio模型的出现,打破了这一瓶颈。

该模型基于创新的预训练架构和上亿小时的训练数据,不仅在智商、情商、表现力与安全性等跨模态对齐能力上有所提升,更在自然度、情感表达和交互适配方面展现出了拟人化的水准。小米首次证明了将语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性,具体表现为Few-Shot Learning能力,即模型能够在少量样本的情况下快速学习并适应新任务。

此外,小米还明确了语音生成式预训练的目标和定义,并开源了一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。目前,小米已在Huggingface平台开源了这款模型的预训练和指令微调模型,同时在Github平台开源了Tokenizer模型。该模型参数量达1.2B,基于Transformer架构,支持音频重建任务和音频转文本任务,为语音技术的研究和应用提供了有力的支持。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表