发帖
客户端
扫码下载

[AI] 阿里通义大模型发布Fun-Audio-Chat:端到端语音交互新突破

[复制链接]
7 |0
数码小喇叭 发表于 昨天 23:09 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
阿里通义大模型推出新一代端到端语音交互模型Fun-Audio-Chat,并开源8B版本。该模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多个权威榜单中实现同尺寸模型排名第一,综合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等同类产品。技术层面,Fun-Audio-Chat采用端到端S2S架构,可直接从语音输入生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著提升效率并降低延迟。其双分辨率设计通过Shared LLM层(5Hz帧率)与SRH层(25Hz帧率)协同工作,使GPU计算开销减少近50%。模型经百万小时多任务数据训练,覆盖音频理解、语音问答、情感识别、工具调用等场景,可感知用户情绪并自动调用函数完成复杂任务。用户可通过GitHub、HuggingFace及ModelScope平台获取开源代码,Demo体验页也已同步上线。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表