发帖
客户端
扫码下载

[AI] 小米7篇研究成果入选AAAI 2026,展现AI领域创新实力

[复制链接]
5 |0
数码小喇叭 发表于 2 小时前 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
小米技术团队宣布,其在人工智能领域的7篇最新研究成果成功入选国际顶级会议AAAI 2026,其中2篇更是获得了口头报告的机会。这些研究涵盖了音效编辑、具身智能3D Agent、检索、推断解码、语音问答、VLN导航以及自动驾驶等多个前沿方向。

AAAI会议由人工智能促进协会主办,是中国计算机学会推荐会议列表中的A类会议,每年吸引全球众多顶尖学者提交研究成果。AAAI 2026作为该会议的第40届,共收到创纪录的23680篇有效投稿,最终录取率为17.6%,竞争异常激烈。

在音效编辑领域,小米团队提出了AV-Edit这一生成式音效编辑框架。该框架通过联合利用视觉、音频与文本语义,实现了对视频中现有音轨的细粒度编辑,填补了传统方法在细粒度编辑、多模态语义对齐上的空白。这一创新成果不仅提升了编辑灵活性,还显著改善了音质,未来落地手机等产品后,将大幅降低创作门槛,重塑移动端音视频编辑体验。

在具身智能领域,小米团队定义了基于运筹学知识的3D Grounding调度任务,并构建了大规模数据集ORS3D-60K。同时,提出了名为GRANT的具身多模态大语言模型,通过“调度令牌机制”有效提升了任务调度效率,并在3D空间中实现了精确定位,为智能体在3D物理世界中高效执行复杂任务提供了有力支持。

此外,小米团队还在Text-to-SQL场景中提出了AutoLink框架,通过自适应、逐步式模式连接,实现了在不暴露完整数据库结构的前提下,高召回地筛选出与用户问题相关的模式子集,显著提升了SQL生成的准确性。在推断解码领域,团队提出了SpecFormer并行草稿token生成算法,有效解决了大语言模型自回归解码中的访存带宽瓶颈问题,提高了草稿token预测的质量和效率。

在语音问答方面,小米团队提出了CLSR端到端对比式语音-语言检索器,能够高效地从长音频录音中提取与问题相关的片段,为长语音问答应用奠定了坚实基础。同时,在空间导航领域,团队提出了SpNav分层框架,使智能体能够理解高级人类指令并完成相应的导航任务,为家庭服务机器人等实际应用中的自然人机互动提供了有力支持。

最后,在自动驾驶领域,小米团队提出了VILTA“视觉–语言–编辑”新范式,通过嵌入视觉语言模型对周围车辆的未来轨迹进行精细化对抗性编辑,高效生成了既符合物理规律又极具挑战性的多样化驾驶场景,显著提升了自动驾驶系统在极端场景下的鲁棒性。

小米技术团队的这些研究成果不仅展示了其在人工智能领域的深厚积累和创新实力,也为未来AI技术的发展和应用提供了新的思路和方向。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表