当前位置:首页 > 元宇宙 > AI

播客神器:微软开源 VibeVoice-1.5B 音频模型,支持中文、可生成 90 分钟 4 人聊天语音

来源: 责编: 时间:2025-08-29 08:49:18 91观看
导读 8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。在架构方

8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。LKU28资讯网——每日最新资讯28at.com

在架构方面,VibeVoice-1.5B 基于 1.5B 参数的 Qwen2.5 语言模型,结合声学(Acoustic)与语义(Semantic)双分词器(Tokenizer),以 7.5Hz 低帧率处理。LKU28资讯网——每日最新资讯28at.com

LKU28资讯网——每日最新资讯28at.com

声学分词器使用 σ-VAE 结构,将 24kHz 原始音频压缩至 3200 分之一;语义分词器则通过语音识别代理任务训练,保留对话语义。解码端采用 1.23 亿参数的扩散解码器,结合分类器自由引导和 DPM-Solver,来提升音质与细节表现。LKU28资讯网——每日最新资讯28at.com

LKU28资讯网——每日最新资讯28at.com

该模型为确保在长篇对话中保持语音连贯性与说话人一致性,在训练中逐步扩展上下文长度,从 4k 至 65k Tokens,其架构支持多说话者的轮流发言,模拟自然对话场景,且可在流式模式下生成长音频,为未来实时 TTS 奠定基础。LKU28资讯网——每日最新资讯28at.com

VibeVoice-1.5B 也有局限,目前仅支持英语与中文,其他语言可能出现不准确或不当内容;不支持说话人语音重叠,也无法生成背景音效或音乐。微软明确禁止将该模型用于声音冒充、虚假信息传播或绕过身份验证等用途,并提醒用户遵守法律并标明 AI 生成来源。LKU28资讯网——每日最新资讯28at.com

微软表示,该模型主要面向科研和开发者社区,适合播客制作、对话式 AI、语音内容生成等领域。未来将推出参数更大的 7B 版本,支持低延迟交互和更高保真度的实时合成,进一步拓展应用场景。LKU28资讯网——每日最新资讯28at.com

附上参考地址LKU28资讯网——每日最新资讯28at.com

微软 VibeVoice-1.5B 技术报告LKU28资讯网——每日最新资讯28at.com

Hugging Face LKU28资讯网——每日最新资讯28at.com

GitHubLKU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27066-0.html播客神器:微软开源 VibeVoice-1.5B 音频模型,支持中文、可生成 90 分钟 4 人聊天语音

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 使用盗版书籍训练 AI,Anthropic 与作家群体就集体诉讼达成和解

下一篇: ChatGPT 被指导致美国一名 16 岁少年自杀:未有效干预且起到“教学”作用

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    来源:首席品牌官从被称为“元宇宙元年”的2021年开始,几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法,相信多数人脑海里首先浮现
  • 茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
Top