NekoTeco

标题: 小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio [打印本页]

作者: 数码小喇叭    时间: 昨天 19:21
标题: 小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio
小米今天宣布了一个重要举措,即开源其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这款模型在语音领域实现了基于ICL(上下文学习)的少样本泛化,为语音技术的发展开辟了新的道路。

据小米介绍,五年前GPT-3首次展示了通过自回归语言模型与大规模无标注数据训练,获得In-Context Learning(ICL)能力的重要性。然而,在语音领域,现有的大模型仍然严重依赖大规模标注数据,难以快速适应新任务并达到类人智能的水平。Xiaomi-MiMo-Audio模型的出现,打破了这一瓶颈。

该模型基于创新的预训练架构和上亿小时的训练数据,不仅在智商、情商、表现力与安全性等跨模态对齐能力上有所提升,更在自然度、情感表达和交互适配方面展现出了拟人化的水准。小米首次证明了将语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性,具体表现为Few-Shot Learning能力,即模型能够在少量样本的情况下快速学习并适应新任务。

此外,小米还明确了语音生成式预训练的目标和定义,并开源了一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。目前,小米已在Huggingface平台开源了这款模型的预训练和指令微调模型,同时在Github平台开源了Tokenizer模型。该模型参数量达1.2B,基于Transformer架构,支持音频重建任务和音频转文本任务,为语音技术的研究和应用提供了有力的支持。




欢迎光临 NekoTeco (https://www.nekoteco.com/) Powered by NekoTeco X3.5