小米集团AI实验室宣布,其Kaldi团队于上月发布了基于Flow Matching架构的ZipVoice系列语音合成(TTS)模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice-Dialog。作为Zipformer架构在语音生成任务中的创新应用,ZipVoice系列模型解决了传统零样本语音合成模型参数量大、合成速度慢的难题,在轻量化建模和推理加速方面取得重要突破。
据介绍,ZipVoice首次将原本为自动语音识别(ASR)设计的Zipformer架构引入TTS任务,利用其多尺度高效率结构、卷积与注意力协同处理以及注意力权重复用等特性,显著提升了语音合成的效率。相比基于DiT的语音合成模型,ZipVoice在保持相似性能的同时,参数量减少了约63%,同时在说话人相似度、词错误率和语音质量等客观及主观指标上均达到行业领先水平。
ZipVoice-Dialog模型则进一步优化了对话语音合成的稳定性和推理速度,为用户提供了自然流畅的对话语音体验。小米表示,ZipVoice系列模型具备低参数量、高推理速度和高语音质量的优势,为需要轻量化、高速度的语音交互应用场景提供了新的解决方案。
目前,ZipVoice系列的模型文件、训练代码、推理代码以及6.8k小时的语音对话数据集OpenDialog已全部开源。未来,小米将持续优化该系列模型,致力于让更多用户享受到低成本、高质量的语音合成技术。 |