阿里通义大模型推出新一代端到端语音交互模型Fun-Audio-Chat,并开源8B版本。该模型在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多个权威榜单中实现同尺寸模型排名第一,综合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等同类产品。技术层面,Fun-Audio-Chat采用端到端S2S架构,可直接从语音输入生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著提升效率并降低延迟。其双分辨率设计通过Shared LLM层(5Hz帧率)与SRH层(25Hz帧率)协同工作,使GPU计算开销减少近50%。模型经百万小时多任务数据训练,覆盖音频理解、语音问答、情感识别、工具调用等场景,可感知用户情绪并自动调用函数完成复杂任务。用户可通过GitHub、HuggingFace及ModelScope平台获取开源代码,Demo体验页也已同步上线。 |