发帖
客户端
扫码下载
打印 上一主题 下一主题

[AI] B站开源自研语音生成大模型IndexTTS-2.0,引领零样本文本转语音新风尚

[复制链接]
3 |0
跳转到指定楼层
楼主
黑芝麻H 发表于 昨天 22:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
9月8日,B站发布公告,宣布正式将其自研的语音生成大模型IndexTTS-2.0开源。该模型是首个支持精确时长控制的自回归零样本文本转语音系统,为视频配音等需严格音画同步的应用场景提供了创新解决方案。

相较于传统逐token生成的TTS系统,IndexTTS-2.0在自回归架构中首次实现了精准时长控制。用户可以通过明确指定生成的token数来实现语音的精确时长控制,或者选择自由生成模式,保持输入提示的韵律特征。这一特性使得模型在视频配音领域具有显著优势。

在声音表达方面,IndexTTS-2.0实现了情感特征与说话人音色的解耦。用户可以独立指定音色来源和情绪来源,例如通过一段音频保留音色,再利用另一段不同情感的音频或文本描述赋予情绪。在零样本条件下,模型能够精准还原目标音色并完全重现指定情绪,为语音合成带来了更高的灵活性和表现力。

为了提升高情感表达下的语音清晰度,开发团队引入了GPT潜在表示,并设计了三阶段训练策略来增强生成稳定性。此外,模型还基于Qwen3微调实现了“软指令”机制,允许用户通过自然语言描述来直观控制情绪方向,进一步降低了使用门槛。

多数据集实验结果表明,IndexTTS-2.0在词错率、说话人相似度和情绪保真度上均超越了当前最先进的零样本TTS模型。其方法具有良好的扩展性,可应用于其他大型自回归TTS系统。B站表示,将公开IndexTTS-2.0的代码和预训练权重,以推动学术研究与产业应用的落地发展。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表