NekoTeco

标题: 小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio [打印本页]

作者: 数码小喇叭 时间: 25-9-19 19:21
标题: 小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio
小米今天宣布了一个重要举措，即开源其首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这款模型在语音领域实现了基于ICL（上下文学习）的少样本泛化，为语音技术的发展开辟了新的道路。

据小米介绍，五年前GPT-3首次展示了通过自回归语言模型与大规模无标注数据训练，获得In-Context Learning（ICL）能力的重要性。然而，在语音领域，现有的大模型仍然严重依赖大规模标注数据，难以快速适应新任务并达到类人智能的水平。Xiaomi-MiMo-Audio模型的出现，打破了这一瓶颈。

该模型基于创新的预训练架构和上亿小时的训练数据，不仅在智商、情商、表现力与安全性等跨模态对齐能力上有所提升，更在自然度、情感表达和交互适配方面展现出了拟人化的水准。小米首次证明了将语音无损压缩预训练Scaling至1亿小时可以“涌现”出跨任务的泛化性，具体表现为Few-Shot Learning能力，即模型能够在少量样本的情况下快速学习并适应新任务。

此外，小米还明确了语音生成式预训练的目标和定义，并开源了一套完整的语音预训练方案，包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。目前，小米已在Huggingface平台开源了这款模型的预训练和指令微调模型，同时在Github平台开源了Tokenizer模型。该模型参数量达1.2B，基于Transformer架构，支持音频重建任务和音频转文本任务，为语音技术的研究和应用提供了有力的支持。

欢迎光临 NekoTeco (https://www.nekoteco.com/)