当前位置:首页 > 元宇宙 > AI

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

来源: 责编: 时间:2025-09-15 11:46:14 94观看
导读 9 月 12 日消息,阿里云通义团队今日宣布推出其下一代基础模型架构 Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型(Instruct 与 Thinking)。通义团队表示,Context Length Scaling 和 Total Paramet

9 月 12 日消息,阿里云通义团队今日宣布推出其下一代基础模型架构 Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型(Instruct 与 Thinking)。v6S28资讯网——每日最新资讯28at.com

v6S28资讯网——每日最新资讯28at.com

通义团队表示,Context Length Scaling 和 Total Parameter Scaling 是未来大模型发展的两大趋势,为了进一步提升模型在长上下文和大规模总参数下的训练和推理效率,他们设计了全新的 Qwen3-Next 的模型结构。v6S28资讯网——每日最新资讯28at.com

v6S28资讯网——每日最新资讯28at.com

该结构相比 Qwen3 的 MoE 模型结构,进行了以下核心改进:混合注意力机制、高稀疏度 MoE 结构、一系列训练稳定友好的优化,以及提升推理效率的多 token 预测机制。v6S28资讯网——每日最新资讯28at.com

基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿参数(仅激活 30 亿参数)、3B 激活的超稀疏 MoE 架构(512 专家,路由 10 个 + 1 共享),结合 Hybrid Attention(Gated DeltaNet + Gated Attention)与多 Token 预测(MTP)。v6S28资讯网——每日最新资讯28at.com

从官方获悉,该 Base 模型实现了与 Qwen3-32B dense 模型相近甚至略好的性能,而它的训练成本仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。v6S28资讯网——每日最新资讯28at.com

v6S28资讯网——每日最新资讯28at.com

该模型原生支持 262K 上下文,官方称可外推至约 101 万 tokens。据介绍,Instruct 版在若干评测中接近 Qwen3-235B,Thinking 版在部分推理任务上超过 Gemini-2.5-Flash-Thinking。v6S28资讯网——每日最新资讯28at.com

v6S28资讯网——每日最新资讯28at.com

据介绍,其突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速,在同类架构中具有一定代表性。v6S28资讯网——每日最新资讯28at.com

v6S28资讯网——每日最新资讯28at.com

模型权重已在 Hugging Face 以 Apache-2.0 许可发布,并可通过 Transformers、SGLang、vLLM 等框架部署;第三方平台 OpenRouter 亦已上线。v6S28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27512-0.html阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 腾讯辟谣“前 OpenAI 姚顺雨上亿薪资入职腾讯”

下一篇: 微软调整 Copilot 定价策略:销售、服务、财务专属功能不再额外收费

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • DAO登上了历史舞台,但是主流准备好采用DAO了吗?

    Block-807DAO要么是定义虚拟未来、无领导组织的革命性概念,要么是充满存在主义和自我毁灭挑战的反乌托邦结构,取决于你在与谁交谈。近几个月来, DAO已经从Crypto
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top