受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
创始人
2025-03-17 12:02:27
0

IT之家 3 月 17 日消息,@小米技术 官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。

IT之家附官方全文如下:

强化学习展现“反直觉”优势 —— 小米大模型团队登顶音频推理 MMAU 榜

面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声音的种类,更期望机器具备复杂推理的能力。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集(https://arxiv.org/ abs / 2410.19168)是这种音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能,如跨场景推理、专业知识等应用上的表现,期望模型达到接近人类专家的逻辑分析水平。

作为基准上限,人类专家在 MMAU 上的准确率为 82.23%。这是一个很难的评测集,目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o,准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%。

MMAU 任务示例图片来自 MMAU 论文

来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。由于它的开源特性,我们尝试使用一个较小的数据集,清华大学发布的 AVQA 数据集(https://mn.cs.tsinghua.edu.cn/ avqa/),对此模型做微调。AVQA 数据集仅包含 3.8 万条训练样本,通过全量有监督微调(SFT),模型在 MMAU 上的准确率提升到了 51.8%。这并不是一个特别显著的提升。

DeepSeek-R1 的发布为我们在该项任务上的研究带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,让模型仅通过 "试错-奖励" 机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。在同一时间,卡内基梅隆大学发布的论文预印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) ”,通过精巧的实验得出了一个有趣的论断:当任务存在明显的生成-验证差距(Generation-Verification Gap),即任务生成结果的难度远大于验证结果正确性的难度时,强化学习比起有监督微调具有独特优势,而 AQA 任务恰好是完美的生成-验证差距显著的任务。

打个比方来说,离线微调方法,如 SFT,有点像背题库,你只能根据已有的题目和答案训练,但遇到新题可能不会做;而强化学习方法,如 GRPO,像老师在要求你多想几个答案,然后老师告诉你哪一个答案好,让你主动思考,激发出自身的能力,而不是被“填鸭式”教学。当然,如果训练量足够,比如有学生愿意花很多年的时间来死记硬背题库,也许最终也能达到不错的效果,但效率太低,浪费太多时间。而主动思考,更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区域,而离线方法需要遍历整个可能性空间,效率要低得多。

基于上述洞察,我们尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。令人惊喜的是,在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

有趣的是,当我们在训练中强制要求模型输出 推理过程时(类似传统思维链方法),准确率反而下降至 61.1%。这说明显式的思维链结果输出可能并不利于模型的训练。

我们的实验揭示了几个和传统认知不同的结论:

尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。在我们当前的实验中,强化学习策略还是比较粗糙,训练过程对思维链的引导并不充分,我们会在后续做进一步探索。

此次实验验证了强化学习在音频推理领域的独特价值,也为后续研究打开了一扇新的大门。当机器不仅能 "听见" 声音,还能 "听懂" 声音背后的因果逻辑时,真正的智能听觉时代将会来临。

我们把训练代码、模型参数开源,并提供了技术报告,供学术界产业界参考交流。

训练代码:https://github.com/xiaomi-research/r1-aqa

模型参数:https://huggingface.co/mispeech/r1-aqa

技术报告:https://arxiv.org/abs/2503.11197

交互 Demo:http://120.48.108.147:7860/

相关内容

热门资讯

成方知道 | 违规手工补息的危... 2024年4月,市场利率定价自律机制发布倡议,对违规手工补息进行整治。那么,什么是违规手工补息?违规...
安徽中鼎:与核心技术团队设立新... 安徽中鼎控股(集团)股份有限公司官微消息,近日,公司与核心技术团队合资设立合肥星汇传感技术有限公司,...
公安部部署开展“昆仑-2025... 来源:人民网 人民网北京5月9日电 (记者梁秋坪、郝萍)为深入贯彻落实中央经济工作会议和全国公安工作...
海关总署:今年前4个月我国货物... 转自:上观新闻海关总署今天(9日)对外公布,前4个月我国货物贸易进出口总值14.14万亿元,外贸延续...
上海男子气愤:她想独吞父亲遗产... 父亲离婚后“消失”十余年儿子未成年时未付一分钱抚养费因此儿子成年后拒绝赡养父亲两人形同陌路父子俩30...
沙滩足球世界杯四强诞生 转自:北京日报客户端2025国际足联沙滩足球世界杯四分之一决赛8日在塞舌尔首都维多利亚全部结束。白俄...
海南省三亚市委原常委、秘书长黄... 中央纪委国家监委网站5月9日通报,据海南省纪委监委消息:经海南省委批准,海南省纪委监委对三亚市委原常...
护航特色产业持续健康发展、服务... 转自:审计署全链条推动新时代审计工作高质量发展广东省审计工作电视电话会议召开,省长王伟中出席会议。会...
东洋学人|滨田青陵:近代日本考... 滨田耕作(1881-1938,号青陵)早年在一篇题为《风弦录》(题目源自白乐天的“风弦自有声”)的文...
做一块光荣的界碑 转自:新华每日电讯作者:新华每日电讯记者王京雪“有一次找你走私的人被公安带走时回头骂你,说怪不得你混...
蓝天立深入梧州市调研强调:扎实... 转自:梧州发布5月8日,自治区主席蓝天立深入梧州市调研重大项目建设、产业发展和安全生产等工作,强调要...
大摩:上调香港交易所目标价至4... .ct_hqimg {margin: 10px 0;} .hqimg_wrapper {text-a...
海关总署:前4月我国货物贸易进... 中新网5月9日电 据海关总署网站消息,据海关统计,2025年前4个月,我国货物贸易进出口总值14.1...
Meta任命谷歌前员工为AI实... 格隆汇5月9日|Meta表示,已任命曾在Alphabet任职的Robert Fergus领导旗下人工...
2025年4月份我市粮油副食品... 转自:呼和浩特发布呼和浩特市价格认证监测中心对市场监测数据显示,4月份我市蔬菜、猪肉、鸡肉、鸡蛋、食...
天风证券:西部大开发再提速 一... 天风证券发布研报称,相较于国内市场,“一带一路”沿线国家处于大发展时期,矿产资源较为丰富,具备大量基...
中信证券:维持平安好医生“买入... .ct_hqimg {margin: 10px 0;} .hqimg_wrapper {text-a...
硬刚400年历史!美国给墨西哥... 叫了400多年的墨西哥湾要改名为美国湾,墨西哥同意吗?​当地时间8日,美国国会众议院通过一项由共和党...
民营经济促进法施行在即,回应这...   《中华人民共和国民营经济促进法》将自2025年5月20日施行。5月8日上午,国新办就民营经济促进...
习言道|新时代的中俄关系更加从... 当地时间5月8日,俄罗斯总统普京同中国国家主席习近平在莫斯科克里姆林宫举行会谈。习近平指出——