当前位置:首页 > 元宇宙 > AI

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

来源: 责编: 时间:2025-09-25 15:00:01 99观看
导读 9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处

9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。dYp28资讯网——每日最新资讯28at.com

Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。dYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:dYp28资讯网——每日最新资讯28at.com

跨模态最先进表现:通过早期以文本为核心的预训练和混合多模态训练,模型具备原生多模态能力。在实现强大音频与音视频性能的同时,单模态的文本与图像效果保持不降。在 36 项音频 / 视频基准测试中,22 项达到了最新水平,其中 32 项在开源范围内处于领先;在自动语音识别(ASR)、音频理解与语音对话方面表现可与 Gemini 2.5 Pro 相当。dYp28资讯网——每日最新资讯28at.com

多语言:支持 119 种文本语言、19 种语音输入语言以及 10 种语音输出语言。dYp28资讯网——每日最新资讯28at.com

语音输入语言:英语、中文、韩语、日语、德语、俄语、意大利语、法语、西班牙语、葡萄牙语、马来语、荷兰语、印尼语、土耳其语、越南语、粤语、阿拉伯语、乌尔都语。dYp28资讯网——每日最新资讯28at.com

语音输出语言:英语、中文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。dYp28资讯网——每日最新资讯28at.com

创新架构:基于 MoE(专家混合)的“思考者–表达者”设计,并结合 AuT 预训练以获得强大的通用表征能力,同时采用多码本设计以将延迟降至最低。dYp28资讯网——每日最新资讯28at.com

实时音频 / 视频交互:低延迟流式交互,支持自然的轮流对话和即时的文本或语音响应。dYp28资讯网——每日最新资讯28at.com

灵活控制:可通过系统提示词自定义行为,实现细粒度控制与轻松适配。dYp28资讯网——每日最新资讯28at.com

精细音频描述: Qwen3-Omni-30B-A3B-Captioner 已开源,这是一个通用型、细节丰富、低幻觉率的音频描述模型,填补了开源社区在该领域的空白。dYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

附官方地址:dYp28资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen3-OmnidYp28资讯网——每日最新资讯28at.com

抱抱脸:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbedYp28资讯网——每日最新资讯28at.com

魔搭:https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4fdYp28资讯网——每日最新资讯28at.com

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Omni-DemodYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

TTS 即文本转语音,阿里云此次发布的 TTS 支持 17 种音色选择,每一种音色均支持 10 种语言。其中不仅包含多国语言,有:普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语;还支持了更多中国方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。dYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

此外,Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的表现,超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特别是在语音稳定性和音色相似度。dYp28资讯网——每日最新资讯28at.com

延迟对比Qwen3-TTS-FlashQwen-TTS并发数双卡 12 并发双卡 6 并发首包延迟(单并发)97ms200ms首包延迟(满并发)420ms733ms首包大小(满并发且越大越好)320ms190msRTF(单并发)0.300.43RTF(满并发)0.510.72

官方地址:dYp28资讯网——每日最新资讯28at.com

Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-DemodYp28资讯网——每日最新资讯28at.com

博客:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-listdYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升级版本,和字节前几天发布的即梦 4.0 图像模型一样主要是一致性上巨大提升。dYp28资讯网——每日最新资讯28at.com

与 8 月份发布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改进包括:dYp28资讯网——每日最新资讯28at.com

多图像编辑支持:对于多图像输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架构,并通过图像拼接进一步训练,以实现多图像编辑。它支持各种组合,如“人 + 人”、“人 + 产品”和“人 + 场景”。目前在 1 到 3 张输入图像时表现最佳。dYp28资讯网——每日最新资讯28at.com

增强的单图像一致性:对于单图像输入,Qwen-Image-Edit-2509 显著提高了编辑的一致性,特别是在以下方面:dYp28资讯网——每日最新资讯28at.com

改进的人像编辑一致性:更好地保留面部身份,支持各种肖像风格和姿势变换;dYp28资讯网——每日最新资讯28at.com

改进的产品编辑一致性:更好地保留产品身份,支持产品海报编辑;dYp28资讯网——每日最新资讯28at.com

改进的文字编辑一致性:除了修改文字内容外,还支持编辑文字字体、颜色和材质;dYp28资讯网——每日最新资讯28at.com

原生支持 ControlNet:包括深度图、边缘图、关键点图等。dYp28资讯网——每日最新资讯28at.com

dYp28资讯网——每日最新资讯28at.com

官方地址:dYp28资讯网——每日最新资讯28at.com

博客:https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-listdYp28资讯网——每日最新资讯28at.com

魔搭:https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509dYp28资讯网——每日最新资讯28at.com

抱抱脸:https://huggingface.co/Qwen/Qwen-Image-Edit-2509dYp28资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen-ImagedYp28资讯网——每日最新资讯28at.com

另外,Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已经开源:dYp28资讯网——每日最新资讯28at.com

抱抱脸:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9ddYp28资讯网——每日最新资讯28at.com

魔搭:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264adYp28资讯网——每日最新资讯28at.com

相关阅读:dYp28资讯网——每日最新资讯28at.com

《阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构》dYp28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-28054-0.html阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为&中国信通院联合解析:超节点如何破解AI算力瓶颈并引领未来趋势

下一篇: 提升团队执行力:微软 Teams 公测 Channel Agent,AI 生成报告、追踪任务

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 2022 区块链 50 强榜单;垃圾NFT项目的十三个特性

    本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款;腾讯发行齐白石画作数字藏品;Ripple成为数字欧元协会成员;Gem上线稀有度排名功能;2022 区块链 50 强榜
  • Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
Top