当前位置:首页 > 元宇宙 > AI

阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

来源: 责编: 时间:2025-07-07 09:51:53 158观看
导读 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域

7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。L9h28资讯网——每日最新资讯28at.com

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。L9h28资讯网——每日最新资讯28at.com

L9h28资讯网——每日最新资讯28at.com

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。L9h28资讯网——每日最新资讯28at.com

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5%的人工抽样校验,层层把关以保障数据集的整体质量。L9h28资讯网——每日最新资讯28at.com

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。L9h28资讯网——每日最新资讯28at.com

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。L9h28资讯网——每日最新资讯28at.com

L9h28资讯网——每日最新资讯28at.com

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。L9h28资讯网——每日最新资讯28at.com

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。L9h28资讯网——每日最新资讯28at.com

附开源地址:L9h28资讯网——每日最新资讯28at.com

https://github.com/FunAudioLLM/ThinkSoundL9h28资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/FunAudioLLM/ThinkSoundL9h28资讯网——每日最新资讯28at.com

https://www.modelscope.cn/studios/iic/ThinkSoundL9h28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-14394-0.html阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5智能制造揭秘:AI引领中国手机制造新飞跃

下一篇: OpenAI 揭秘 ChatGPT 两年半前爆火背后轶事:原计划命名“Chat with GPT-3.5”

标签:
  • 热门焦点
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 中国银保监管委提示:谨慎投资,勿做接盘侠

    中国银保监管委,发布一则风险提示,内容围绕防范以“元宇宙”名义进行的非法集资风险。原文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • 韩国建立元宇宙生态系统,智度股份发布元宇宙社区Meta彼岸

    财联社|区块链日报28日讯 今日《元宇宙新鲜事》有:杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业;韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
  • NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
  • 我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top