当前位置:首页 > 元宇宙 > AI

受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜

来源: 责编: 时间:2025-03-19 09:41:26 137观看
导读 3 月 17 日消息,@小米技术 官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际

3 月 17 日消息,@小米技术 官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。pU328资讯网——每日最新资讯28at.com

pU328资讯网——每日最新资讯28at.com

附官方全文如下:pU328资讯网——每日最新资讯28at.com

强化学习展现“反直觉”优势 —— 小米大模型团队登顶音频推理 MMAU 榜

面对一段汽车行驶中的座舱录音,AI 能否判断出汽车是否存在潜在的故障?在交响乐演出现场,AI 能否推测出作曲家创造这首音乐时的心情?在早高峰地铁站混乱的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模型时代,人们已经不满足于机器仅仅识别说话的内容、声音的种类,更期望机器具备复杂推理的能力。pU328资讯网——每日最新资讯28at.com

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集(https://arxiv.org/ abs / 2410.19168)是这种音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能,如跨场景推理、专业知识等应用上的表现,期望模型达到接近人类专家的逻辑分析水平。pU328资讯网——每日最新资讯28at.com

作为基准上限,人类专家在 MMAU 上的准确率为 82.23%。这是一个很难的评测集,目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o,准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%。pU328资讯网——每日最新资讯28at.com

pU328资讯网——每日最新资讯28at.com

MMAU 任务示例图片来自 MMAU 论文

来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。由于它的开源特性,我们尝试使用一个较小的数据集,清华大学发布的 AVQA 数据集(https://mn.cs.tsinghua.edu.cn/ avqa/),对此模型做微调。AVQA 数据集仅包含 3.8 万条训练样本,通过全量有监督微调(SFT),模型在 MMAU 上的准确率提升到了 51.8%。这并不是一个特别显著的提升。pU328资讯网——每日最新资讯28at.com

DeepSeek-R1 的发布为我们在该项任务上的研究带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,让模型仅通过 "试错-奖励" 机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。在同一时间,卡内基梅隆大学发布的论文预印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) ”,通过精巧的实验得出了一个有趣的论断:当任务存在明显的生成-验证差距(Generation-Verification Gap),即任务生成结果的难度远大于验证结果正确性的难度时,强化学习比起有监督微调具有独特优势,而 AQA 任务恰好是完美的生成-验证差距显著的任务。pU328资讯网——每日最新资讯28at.com

打个比方来说,离线微调方法,如 SFT,有点像背题库,你只能根据已有的题目和答案训练,但遇到新题可能不会做;而强化学习方法,如 GRPO,像老师在要求你多想几个答案,然后老师告诉你哪一个答案好,让你主动思考,激发出自身的能力,而不是被“填鸭式”教学。当然,如果训练量足够,比如有学生愿意花很多年的时间来死记硬背题库,也许最终也能达到不错的效果,但效率太低,浪费太多时间。而主动思考,更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区域,而离线方法需要遍历整个可能性空间,效率要低得多。pU328资讯网——每日最新资讯28at.com

基于上述洞察,我们尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。令人惊喜的是,在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。pU328资讯网——每日最新资讯28at.com

有趣的是,当我们在训练中强制要求模型输出 <thinking></thinking> 推理过程时(类似传统思维链方法),准确率反而下降至 61.1%。这说明显式的思维链结果输出可能并不利于模型的训练。pU328资讯网——每日最新资讯28at.com

我们的实验揭示了几个和传统认知不同的结论:pU328资讯网——每日最新资讯28at.com

关于微调方法:强化学习在 3.8 万条数据集上的表现显著超过监督学习在 57 万条数据集上的结果pU328资讯网——每日最新资讯28at.com

关于参数规模:相比千亿级模型,7B 参数的模型通过强化学习也可展现强推理能力pU328资讯网——每日最新资讯28at.com

关于隐式推理:显式思维链输出反而成为性能瓶颈pU328资讯网——每日最新资讯28at.com

尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。在我们当前的实验中,强化学习策略还是比较粗糙,训练过程对思维链的引导并不充分,我们会在后续做进一步探索。pU328资讯网——每日最新资讯28at.com

此次实验验证了强化学习在音频推理领域的独特价值,也为后续研究打开了一扇新的大门。当机器不仅能 "听见" 声音,还能 "听懂" 声音背后的因果逻辑时,真正的智能听觉时代将会来临。pU328资讯网——每日最新资讯28at.com

我们把训练代码、模型参数开源,并提供了技术报告,供学术界产业界参考交流。pU328资讯网——每日最新资讯28at.com

训练代码:https://github.com/xiaomi-research/r1-aqapU328资讯网——每日最新资讯28at.com

模型参数:https://huggingface.co/mispeech/r1-aqapU328资讯网——每日最新资讯28at.com

技术报告:https://arxiv.org/abs/2503.11197pU328资讯网——每日最新资讯28at.com

交互 Demo:http://120.48.108.147:7860/pU328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11593-0.html受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 助力,新研究只用 5 滴血就能测出你的真实生理年龄

下一篇: “AI 作弊”助程序员线上面试蒙混过关,谷歌等大厂考虑恢复面对面形式

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙&ldquo;AIGC热潮与应用&rdquo;。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

    今天,Billboard宣布与流行的NFT头像集World of Women(WoW)建立新的伙伴关系,向NFT生态系统又迈进了一步。在这次合作中,WoW的创建者Yam Karkai将帮助这个音乐行业巨
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
Top