当前位置:首页 > 元宇宙 > AI

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

来源: 责编: 时间:2025-07-07 09:51:53 90观看
导读 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域

7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。MXG28资讯网——每日最新资讯28at.com

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。MXG28资讯网——每日最新资讯28at.com

MXG28资讯网——每日最新资讯28at.com

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。MXG28资讯网——每日最新资讯28at.com

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5%的人工抽样校验,层层把关以保障数据集的整体质量。MXG28资讯网——每日最新资讯28at.com

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。MXG28资讯网——每日最新资讯28at.com

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。MXG28资讯网——每日最新资讯28at.com

MXG28资讯网——每日最新资讯28at.com

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。MXG28资讯网——每日最新资讯28at.com

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。MXG28资讯网——每日最新资讯28at.com

附开源地址:MXG28资讯网——每日最新资讯28at.com

https://github.com/FunAudioLLM/ThinkSoundMXG28资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/FunAudioLLM/ThinkSoundMXG28资讯网——每日最新资讯28at.com

https://www.modelscope.cn/studios/iic/ThinkSoundMXG28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-14394-0.html阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5智能制造揭秘:AI引领中国手机制造新飞跃

下一篇: OpenAI 揭秘 ChatGPT 两年半前爆火背后轶事:原计划命名“Chat with GPT-3.5”

标签:
  • 热门焦点
  • 茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
  • 虚拟偶像行业的商用价值逐渐凸显,IP生态圈也逐渐成型

    六月的第一个周六,一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行,相较于洛天依、百大UP主泠鸢yousa等,这位虚拟Up主在B站上的粉丝数43.6万
Top