当前位置:首页 > 科技  > 手机

小米开源声音理解大模型MiDashengLM-7B,22项评测刷新SOTA记录

来源: 责编: 时间:2025-08-05 09:21:54 140观看
导读小米公司近期宣布了一项重大技术进展,正式开源了其声音理解大模型MiDashengLM-7B。这一模型在多模态大模型领域取得了显著成就,刷新了22个公开评测集上的最佳成绩(SOTA),并展示了业界领先的推理效率和数据吞吐能力。MiDash

小米公司近期宣布了一项重大技术进展,正式开源了其声音理解大模型MiDashengLM-7B。这一模型在多模态大模型领域取得了显著成就,刷新了22个公开评测集上的最佳成绩(SOTA),并展示了业界领先的推理效率和数据吞吐能力。MVe28资讯网——每日最新资讯28at.com

MiDashengLM-7B的构建基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音及音乐的统一理解。这一能力使得模型不仅能准确捕捉并分析声音内容,还能理解其背后的情境与情感,提升了全场景智能生态的用户体验。MVe28资讯网——每日最新资讯28at.com

MVe28资讯网——每日最新资讯28at.com

据悉,小米于2024年首次推出了Xiaomi Dasheng声音基座模型,而此次开源的7B模型是对该基座模型的扩展与升级。目前,该系列模型已在小米智能家居、汽车座舱等多个领域实现了超过30个应用场景的落地。MVe28资讯网——每日最新资讯28at.com

在性能表现上,MiDashengLM-7B在音频描述、声音理解、音频问答等多个任务中展现出了明显的优势。特别是在音频描述任务中,其性能超越了Qwen和Kimi等同类7B模型。在声音理解任务中,MiDashengLM-7B也仅在少数项目上略微落后于Kimi的7B模型,整体表现领先。MVe28资讯网——每日最新资讯28at.com

除了卓越的性能表现,MiDashengLM-7B在推理效率上也实现了显著提升。在单个样本推理的情形下,其首个token预测时间(TTFT)仅为Qwen2.5-Omni-7B的1/4。同时,在批次处理时,MiDashengLM-7B能够在80GB GPU上处理更大的batch size,而不会出现显存溢出的问题,从而提高了数据吞吐效率。MVe28资讯网——每日最新资讯28at.com

MiDashengLM-7B还采用了创新的训练范式,即通用音频描述对齐范式。这一范式避免了传统ASR转录数据对齐方法的局限性,能够捕捉说话人的情感、空间混响等关键声学特征,迫使模型学习音频场景的深层语义关联。这一方法的引入,使得模型能够利用几乎所有的数据,包括噪声或非语音内容,从而提高了数据利用率和模型性能。MVe28资讯网——每日最新资讯28at.com

小米表示,音频理解是构建全场景智能生态的关键领域之一。MiDashengLM-7B的推出,将进一步提升小米设备在自然语言交互方面的体验,从智能家居、智能汽车到智能手机等各个领域都能受益。未来,小米将继续致力于AI大模型领域的研究和创新,为用户提供更加智能、便捷的服务。MVe28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-175643-0.html小米开源声音理解大模型MiDashengLM-7B,22项评测刷新SOTA记录

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OPPO Find X9 Ultra或配1.5K直屏,SM8850超大杯机型测试进展曝光

下一篇: iOS 18.6续航实测:iPhone 15系列续航提升明显,值得升级

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 三言两语说透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术,可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
  • 重估百度丨“晚熟”的百度云,能等到春天吗?

    ©自象限原创作者|程心排版|王喻可2016年7月13日,百度云计算战略发布会在北京举行,宣告着百度智能云的正式启程。彼时的会场座无虚席,甚至排队排到了门外,在场的所有人几乎都
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 三星获批量产iPhone 15全系屏幕:苹果史上最惊艳直屏

    按照惯例,苹果将继续在今年9月举办一年一度的秋季新品发布会,有传言称发布会将于9月12日举行,届时全新的iPhone 15系列将正式与大家见面,不出意外的话
  • 支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    2023年7月4日,“无损音质,声动人心”iQOO TWS 1正式发布,支持aptX Lossless无损传输,限时优惠价369元。iQOO TWS 1耳机率先支持端到端aptX Lossless无
Top