发帖
客户端
扫码下载

[AI] 小米发布ZipVoice系列语音合成模型,实现轻量化与高效推理

[复制链接]
5 |0
黑芝麻H 发表于 昨天 20:16 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
小米集团AI实验室宣布,其Kaldi团队于上月发布了基于Flow Matching架构的ZipVoice系列语音合成(TTS)模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice-Dialog。作为Zipformer架构在语音生成任务中的创新应用,ZipVoice系列模型解决了传统零样本语音合成模型参数量大、合成速度慢的难题,在轻量化建模和推理加速方面取得重要突破。

据介绍,ZipVoice首次将原本为自动语音识别(ASR)设计的Zipformer架构引入TTS任务,利用其多尺度高效率结构、卷积与注意力协同处理以及注意力权重复用等特性,显著提升了语音合成的效率。相比基于DiT的语音合成模型,ZipVoice在保持相似性能的同时,参数量减少了约63%,同时在说话人相似度、词错误率和语音质量等客观及主观指标上均达到行业领先水平。

ZipVoice-Dialog模型则进一步优化了对话语音合成的稳定性和推理速度,为用户提供了自然流畅的对话语音体验。小米表示,ZipVoice系列模型具备低参数量、高推理速度和高语音质量的优势,为需要轻量化、高速度的语音交互应用场景提供了新的解决方案。

目前,ZipVoice系列的模型文件、训练代码、推理代码以及6.8k小时的语音对话数据集OpenDialog已全部开源。未来,小米将持续优化该系列模型,致力于让更多用户享受到低成本、高质量的语音合成技术。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表