当前位置:首页 > 元宇宙 > AI

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

来源: 责编: 时间:2025-07-07 09:51:53 145观看
导读 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域

7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。hVP28资讯网——每日最新资讯28at.com

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。hVP28资讯网——每日最新资讯28at.com

hVP28资讯网——每日最新资讯28at.com

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。hVP28资讯网——每日最新资讯28at.com

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5%的人工抽样校验,层层把关以保障数据集的整体质量。hVP28资讯网——每日最新资讯28at.com

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。hVP28资讯网——每日最新资讯28at.com

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。hVP28资讯网——每日最新资讯28at.com

hVP28资讯网——每日最新资讯28at.com

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。hVP28资讯网——每日最新资讯28at.com

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。hVP28资讯网——每日最新资讯28at.com

附开源地址:hVP28资讯网——每日最新资讯28at.com

https://github.com/FunAudioLLM/ThinkSoundhVP28资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/FunAudioLLM/ThinkSoundhVP28资讯网——每日最新资讯28at.com

https://www.modelscope.cn/studios/iic/ThinkSoundhVP28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-14394-0.html阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5智能制造揭秘:AI引领中国手机制造新飞跃

下一篇: OpenAI 揭秘 ChatGPT 两年半前爆火背后轶事:原计划命名“Chat with GPT-3.5”

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • “任何国产元宇宙都是假元宇宙”

    上个月,华语乐坛的优质偶像之一,DOTA2资深玩家林俊杰,在国外元宇宙产品分布式大陆(Decentraland)上买了三块虚拟地产,花了12.3万美元(也就是人民币接近80万)。截至目
  • 2022开年最热投资赛道竟是虚拟人,背后隐藏了什么商业价值?

    在刚刚结束不久的2021年江苏卫视跨年演唱会上,虚拟邓丽君与歌手周深同台联唱,实现了跨时代合作,而这还不只是“邓丽君”,哔哩哔哩、东方卫视等多家跨年晚会都出现
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 韩国主权基金增加对硅谷初创公司投资 押注元宇宙和人工智能

    韩国投资公司(KIC)CEO Seoungho Jin预计,该公司在旧金山的办事处今年将扩招人手,探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
  • 元宇宙平台会是上世纪末的互联网吗?

    “元宇宙”火了好几个月,互联网大厂忙于布局,资本市场热烈追捧。然而很多人还是看不明白,更多的人觉得这是一场泡沫,一场骗局。一开始接触这个怪里怪气的名词,感觉
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top