Parakeet TDT 0.6B V2:1秒转录60分钟音频,开源语音识别新标杆

[复制链接]
9 |0
黑芝麻H 发表于 25-5-11 21:11:13 | 显示全部楼层 |阅读模式    IP属地:广东东莞
英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单。

它能够在 1 秒内实现高质量转录 60 分钟的音频,而且参数仅仅 0.6B,轻松击败了所有主流闭源模型。

模型下载:huggingface.co/nvidia/parakeet-tdt-0.6b-v2
排行榜单:huggingface.co/spaces/hf-audio/open_asr_leaderboard

不过目前仅支持识别英文,采用的是 CC-BY-4.0 开源许可,允许商业使用。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
应用推荐
好用软件,全在这里。
快速回复 返回顶部 返回列表