当前位置:首页 > 元宇宙 > AI

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

来源: 责编: 时间:2025-07-07 09:51:53 150观看
导读 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域

7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。F0W28资讯网——每日最新资讯28at.com

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。F0W28资讯网——每日最新资讯28at.com

F0W28资讯网——每日最新资讯28at.com

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。F0W28资讯网——每日最新资讯28at.com

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5%的人工抽样校验,层层把关以保障数据集的整体质量。F0W28资讯网——每日最新资讯28at.com

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。F0W28资讯网——每日最新资讯28at.com

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。F0W28资讯网——每日最新资讯28at.com

F0W28资讯网——每日最新资讯28at.com

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。F0W28资讯网——每日最新资讯28at.com

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。F0W28资讯网——每日最新资讯28at.com

附开源地址:F0W28资讯网——每日最新资讯28at.com

https://github.com/FunAudioLLM/ThinkSoundF0W28资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/FunAudioLLM/ThinkSoundF0W28资讯网——每日最新资讯28at.com

https://www.modelscope.cn/studios/iic/ThinkSoundF0W28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-14394-0.html阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5智能制造揭秘:AI引领中国手机制造新飞跃

下一篇: OpenAI 揭秘 ChatGPT 两年半前爆火背后轶事:原计划命名“Chat with GPT-3.5”

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • 元宇宙不完全是想出来的,而是实打实做出来的

    沈阳强调,元宇宙不完全是想出来的,而是靠实打实做出来的;互联网向三维化升级是已经明确的大方向,这意味着大量的资金和技术会持续涌入。跨入2022年,元宇宙并没有“
Top