当前位置:首页 > 元宇宙 > AI

支持 100 万 Tokens 上下文,阿里通义千问推出 Qwen2.5-1M 开源模型

来源: 责编: 时间:2025-01-29 18:59:45 150观看
导读 1 月 27 日消息,阿里通义千问今日宣布,正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。从官方介绍获悉,通义千问本次发布了两个新的开源模型,分别是Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,这

1 月 27 日消息,阿里通义千问今日宣布,正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。J0N28资讯网——每日最新资讯28at.com

从官方介绍获悉,通义千问本次发布了两个新的开源模型,分别是Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,这是通义千问首次将开源的 Qwen 模型的上下文扩展到 1M 长度。J0N28资讯网——每日最新资讯28at.com

为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍。J0N28资讯网——每日最新资讯28at.com

长上下文任务

在上下文长度为 100 万 Tokens 的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 系列模型能够准确地从 1M 长度的文档中检索出隐藏信息,其中仅有 7B 模型出现了少量错误。J0N28资讯网——每日最新资讯28at.com

J0N28资讯网——每日最新资讯28at.com

对于更复杂的长上下文理解任务,选择了 RULER、LV-Eval 和 LongbenchChat 测试集。J0N28资讯网——每日最新资讯28at.com

J0N28资讯网——每日最新资讯28at.com

J0N28资讯网——每日最新资讯28at.com

从这些结果中,Qwen 得出以下几点关键结论:J0N28资讯网——每日最新资讯28at.com

显著超越 128K 版本:Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,特别是在处理超过 64K 长度的任务时表现出色。J0N28资讯网——每日最新资讯28at.com

性能优势明显:Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo,还在多个数据集上稳定超越 GPT-4o-mini,为长上下文任务提供了开源模型的选择。J0N28资讯网——每日最新资讯28at.com

短序列任务

J0N28资讯网——每日最新资讯28at.com

可以发现:J0N28资讯网——每日最新资讯28at.com

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短文本任务上的表现与其 128K 版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。J0N28资讯网——每日最新资讯28at.com

与 GPT-4o-mini 相比,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任务上实现了相近的性能,同时上下文长度是 GPT-4o-mini 的八倍。J0N28资讯网——每日最新资讯28at.com

模型链接:https://www.modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40J0N28资讯网——每日最新资讯28at.com

技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdfJ0N28资讯网——每日最新资讯28at.com

体验链接:https://modelscope.cn/studios/Qwen/Qwen2.5-1M-DemoJ0N28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10254-0.html支持 100 万 Tokens 上下文,阿里通义千问推出 Qwen2.5-1M 开源模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 全球首个港口服务类大模型方舟 TaaS 开启公测,支持智能规划路线并估算费用

下一篇: 小米SU7车模春晚亮相成焦点,碳纤维后视镜版卖断货!

标签:
  • 热门焦点
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 就业年龄歧视如何解决?来Web3看看

    上周,我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划,那年我们的协议实习生刚出生。在一阵恐慌后,我又花了一点时间反思我这个拥有近1
Top