当前位置:首页 > 元宇宙 > AI

SDS 技术首次用于音频:英伟达携手 MIT 推 Audio-SDS,参数化控制 AI 音效生成

来源: 责编: 时间:2025-05-15 09:50:57 228观看
导读 5 月 13 日消息,科技媒体 marktechpost 昨日(5 月 12 日)发布博文,报道称英伟达携手麻省理工学院(MIT),推出了 Audio-SDS,一种基于文本条件的音频扩散模型扩展技术。音频扩散模型近年来在生成高质量音频方面表现卓越,

5 月 13 日消息,科技媒体 marktechpost 昨日(5 月 12 日)发布博文,报道称英伟达携手麻省理工学院(MIT),推出了 Audio-SDS,一种基于文本条件的音频扩散模型扩展技术。a8e28资讯网——每日最新资讯28at.com

音频扩散模型近年来在生成高质量音频方面表现卓越,但其局限在于难以优化明确且可解释的参数。a8e28资讯网——每日最新资讯28at.com

英伟达和 MIT 的科研团队首次将 Score Distillation Sampling(SDS)方法应用于音频领域,结合预训练模型的生成能力与参数化音频表示,无需大规模特定数据集,可应用于 FM 合成器参数校准、物理冲击音合成和音源分离三大任务。a8e28资讯网——每日最新资讯28at.com

SDS 技术广泛应用于文本生成 3D 图像和图像编辑中,英伟达融合该技术推出 Audio-SDS,结合预训练模型的生成先验知识,能够直接根据高级文本提示调整 FM 合成参数、冲击音模拟器或分离掩码。a8e28资讯网——每日最新资讯28at.com

a8e28资讯网——每日最新资讯28at.com

研究团队通过基于解码器的 SDS、多步去噪和多尺度频谱图等方法,实验结果表明,Audio-SDS 在主观听觉测试和客观指标(如 CLAP 分数、信号失真比 SDR)上均表现出色。a8e28资讯网——每日最新资讯28at.com

a8e28资讯网——每日最新资讯28at.com

a8e28资讯网——每日最新资讯28at.com

Audio-SDS 的创新在于,它用单一预训练模型支持多种音频任务,消除了对大规模领域特定数据集的依赖。尽管如此,研究团队也指出,模型覆盖范围、潜在编码伪影和优化敏感性等问题仍需解决。a8e28资讯网——每日最新资讯28at.com

附上参考地址a8e28资讯网——每日最新资讯28at.com

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyonda8e28资讯网——每日最新资讯28at.com

Audio-SDS Overviewa8e28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12844-0.htmlSDS 技术首次用于音频:英伟达携手 MIT 推 Audio-SDS,参数化控制 AI 音效生成

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 火山引擎发布豆包 1.5・视觉深度思考模型,新增 GUI Agent 能力

下一篇: 苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 传统互联网与区块链场景下数据权利法律分析

    数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下,数据处
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
Top