小米创办人、董事长兼CEO雷军宣布,小米在AI领域的多项创新成果成功入选国际顶级会议ICASSP 2026,这些成果涵盖了音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个方面。ICASSP作为全球音频领域最具权威性与影响力的国际顶级学术会议,自1976年在美国费城首次举办以来,已有近50年历史,ICASSP 2026将于今年5月在西班牙巴塞罗那举行。
在音频理解领域,小米推出了创新数据集ACAVCaps,以解决当前主流数据集在规模与描述粒度上的矛盾。ACAVCaps通过自动化管线,从多维度、多视角对音频内容进行精细化刻画,构建了一套多级自动化标注框架。该框架利用多个专家模型并行提取原始音频中的声音事件、音乐特征等关键元数据,并通过大语言模型和思维链推理策略进行逻辑整合,实现了从整体感知到特定声音事件的全方位描述。ACAVCaps包含约470万条音频-文本对,将推动音频AI向深度语义理解发展,并即将全面开源。
在联邦学习方面,小米提出了新颖方法FedDCG,通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题。该方法显著提升了模型在未知环境中的准确性与鲁棒性,在Office-Home和MiniDomainNet等数据集上的实验表明,FedDCG在零样本评估基准上均优于当前最先进方法。FedDCG不仅推动了联邦学习在复杂泛化任务中的前沿,还为跨域图像分类和隐私保护下的模型部署提供了可行路径。
针对生成音乐的感知评估,小米提出了FUSEMOS架构,该架构融合CLAP与MERT两大预训练模型,通过双编码器架构和排名感知复合损失函数,实现了更精准、更贴近人类听觉感知的评估。实验结果表明,FUSEMOS在关键指标上均显著优于现有方法,有效提升了音乐感知评估的精度和对人类偏好相对顺序的理解能力。
此外,小米还研发了跨音频领域与跨语言的音频-文本预训练模型GLAP。该模型通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。GLAP在语音检索和声音检索基准上均保持SOTA竞争力,并具备多语言泛化能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。
在视频到音频合成方面,小米提出了MeanFlow模型,该模型通过平均速度场建模替代传统流匹配模型的瞬时速度建模,实现了推理阶段的一步生成,并创新引入标量重缩放机制,有效缓解了一步生成失真问题。MeanFlow在实现推理速度大幅提升的同时,精准保障了音效生成质量,可直接赋能影视后期无声视频高效配音、短视频平台智能音效生成等实际场景。
同时,小米大模型团队与中国人民大学高瓴人工智能学院联合提出了无需训练的帧选择框架Think-Clip-Sample(TCS),通过多查询推理和片段级慢快采样策略,显著提升了多模态大语言模型在长视频问答任务中的准确性与效率。TCS框架在主流长视频理解基准上均取得显著效果提升,为资源受限的实际应用提供了可行的技术路径。
最后,小米还提出了一种统一的多任务学习框架,将“找图、找文、意图理解”整合到两个模型中,通过跨注意力机制与NLU模型进行语义交互,实现了意图感知和语义增强。该框架支持多语言输入,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案,并在多个数据集上均达到或超过现有最优方法。 |