当前位置：首页 > 元宇宙 > AI

受 DeepSeek-R1 启发，小米大模型团队登顶音频推理 MMAU 榜

来源：责编：时间：2025-03-19 09:41:26 228观看

导读 3 月 17 日消息，@小米技术官微今日发文称，小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发，团队率先将强化学习算法应用于多模态音频理解任务，仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际

3 月 17 日消息，@小米技术官微今日发文称，小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发，团队率先将强化学习算法应用于多模态音频理解任务，仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首，现同步开源。

附官方全文如下：

强化学习展现“反直觉”优势 —— 小米大模型团队登顶音频推理 MMAU 榜

面对一段汽车行驶中的座舱录音，AI 能否判断出汽车是否存在潜在的故障？在交响乐演出现场，AI 能否推测出作曲家创造这首音乐时的心情？在早高峰地铁站混乱的脚步声潮中，AI 能否预判闸机口可能发生的冲撞风险？在大模型时代，人们已经不满足于机器仅仅识别说话的内容、声音的种类，更期望机器具备复杂推理的能力。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集（https://arxiv.org/ abs / 2410.19168）是这种音频推理能力的量化标尺，它通过一万条涵盖语音、环境声和音乐的音频样本，结合人类专家标注的问答对，测试模型在 27 种技能，如跨场景推理、专业知识等应用上的表现，期望模型达到接近人类专家的逻辑分析水平。

作为基准上限，人类专家在 MMAU 上的准确率为 82.23%。这是一个很难的评测集，目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o，准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash，准确率为 55.6%。

MMAU 任务示例图片来自 MMAU 论文

来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。由于它的开源特性，我们尝试使用一个较小的数据集，清华大学发布的 AVQA 数据集（https://mn.cs.tsinghua.edu.cn/ avqa/），对此模型做微调。AVQA 数据集仅包含 3.8 万条训练样本，通过全量有监督微调（SFT），模型在 MMAU 上的准确率提升到了 51.8%。这并不是一个特别显著的提升。

DeepSeek-R1 的发布为我们在该项任务上的研究带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法，让模型仅通过 "试错-奖励" 机制就能使自主进化，涌现出类似人类的反思、多步验证等推理能力。在同一时间，卡内基梅隆大学发布的论文预印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) ”，通过精巧的实验得出了一个有趣的论断：当任务存在明显的生成-验证差距（Generation-Verification Gap），即任务生成结果的难度远大于验证结果正确性的难度时，强化学习比起有监督微调具有独特优势，而 AQA 任务恰好是完美的生成-验证差距显著的任务。

打个比方来说，离线微调方法，如 SFT，有点像背题库，你只能根据已有的题目和答案训练，但遇到新题可能不会做；而强化学习方法，如 GRPO，像老师在要求你多想几个答案，然后老师告诉你哪一个答案好，让你主动思考，激发出自身的能力，而不是被“填鸭式”教学。当然，如果训练量足够，比如有学生愿意花很多年的时间来死记硬背题库，也许最终也能达到不错的效果，但效率太低，浪费太多时间。而主动思考，更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区域，而离线方法需要遍历整个可能性空间，效率要低得多。

基于上述洞察，我们尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。令人惊喜的是，在仅使用 AVQA 的 3.8 万条训练样本的情况下，强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率，这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

有趣的是，当我们在训练中强制要求模型输出 <thinking></thinking> 推理过程时（类似传统思维链方法），准确率反而下降至 61.1%。这说明显式的思维链结果输出可能并不利于模型的训练。

我们的实验揭示了几个和传统认知不同的结论：

关于微调方法：强化学习在 3.8 万条数据集上的表现显著超过监督学习在 57 万条数据集上的结果

关于参数规模：相比千亿级模型，7B 参数的模型通过强化学习也可展现强推理能力

关于隐式推理：显式思维链输出反而成为性能瓶颈

尽管当前准确率已突破 64%，但距离人类专家 82% 的水平仍有差距。在我们当前的实验中，强化学习策略还是比较粗糙，训练过程对思维链的引导并不充分，我们会在后续做进一步探索。

此次实验验证了强化学习在音频推理领域的独特价值，也为后续研究打开了一扇新的大门。当机器不仅能 "听见" 声音，还能 "听懂" 声音背后的因果逻辑时，真正的智能听觉时代将会来临。

我们把训练代码、模型参数开源，并提供了技术报告，供学术界产业界参考交流。

训练代码：https://github.com/xiaomi-research/r1-aqa

模型参数：https://huggingface.co/mispeech/r1-aqa

技术报告：https://arxiv.org/abs/2503.11197

交互 Demo：http://120.48.108.147:7860/

本文链接：http://www.28at.com/showinfo-45-11593-0.html受 DeepSeek-R1 启发，小米大模型团队登顶音频推理 MMAU 榜

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： AI 助力，新研究只用 5 滴血就能测出你的真实生理年龄

下一篇： “AI 作弊”助程序员线上面试蒙混过关，谷歌等大厂考虑恢复面对面形式

标签：

热门焦点

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

来源：清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗？那时的Sam Altman可谓意气风发，在耐心、友好的国会议员面前，就AI立法、大模型安全性问题侃侃而
三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

来源：清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上，中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士，还有清华
FMIFAwards奖项即将揭晓！

来源：X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

来源：清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上，中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三
美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

No.1 俄罗斯财政部长: 在俄罗斯禁止比特币就如禁止互联网一样2月16日消息，俄罗斯财政部长安东·西卢安诺夫（Anton Siluanov）表示，在俄罗斯禁止加密货币就跟禁止互
上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

区块链日报17日讯今日《元宇宙新鲜事》有：上海虹口将成立总额约10亿元的元宇宙产业基金；香港市场首只元宇宙主题ETF拟于2月21日上市；元宇宙平台Roblox出现违禁游
冰墩墩的NFT暴涨千倍？真相则是价格暴跌、成交遇冷

《区块链日报》记者查证，近日来冰墩墩数字藏品交易数量出现大幅下滑，而所谓的暴涨千倍更是有价无市的自嗨。昨日，北京冬奥会正式闭幕。在这届冬奥会上，吉祥物“冰
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
艺术创作者能否永久收取版税？

NFTs正在改变我们理解互联网所有权的方式，社区管理的所有权有很多好处，但如果创作者想为他/她的创作获得永久的收益（版税），会发生什么？这不是一个容易解决的问题，版税

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

受 DeepSeek-R1 启发，小米大模型团队登顶音频推理 MMAU 榜

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

FMIFAwards奖项即将揭晓！

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

冰墩墩的NFT暴涨千倍？真相则是价格暴跌、成交遇冷

纽约街头出现NFT自动贩卖机

艺术创作者能否永久收取版税？

最新推荐

猜你喜欢

热门推荐

相关资讯