当前位置:首页 > 元宇宙 > AI

从 DeepSeek 火热,到李飞飞团队新成果,“幕后高手”竟是它

来源: 责编: 时间:2025-02-08 12:16:04 209观看
导读 最近 AI 大模型领域可以说是热点话题不断,DeepSeek 的热潮还未消退,国内李飞飞团队提出的一种模型训练新方法又在行业里引发热议。具体来说,他们以阿里云通义千问 Qwen2.5-32B-Instruct 开源模型为底座,在 16 块

最近 AI 大模型领域可以说是热点话题不断,DeepSeek 的热潮还未消退,国内李飞飞团队提出的一种模型训练新方法又在行业里引发热议。Cb628资讯网——每日最新资讯28at.com

具体来说,他们以阿里云通义千问 Qwen2.5-32B-Instruct 开源模型为底座,在 16 块 H100 GPU 上进行监督微调,仅用时 26 分钟便训练出了新模型 s1-32B。令人惊叹的是,该模型在数学及编码能力上取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相当的效果,甚至在竞赛数学问题上的表现比 o1-preview 高出 27%。Cb628资讯网——每日最新资讯28at.com

Cb628资讯网——每日最新资讯28at.com

同时值得关注的是,DeepSeek 早在之前也曾透露,将 DeepSeek-R1 的推理能力蒸馏 6 个模型开源给社区,其中 4 个模型正是基于 Qwen 开发的。基于 Qwen-32B 蒸馏的模型,在多项能力上实现了对标 OpenAI o1-mini 的效果。Cb628资讯网——每日最新资讯28at.com

Cb628资讯网——每日最新资讯28at.com

这表明,Qwen 模型不仅能够满足顶尖团队对模型性能的高要求,还能为不同团队提供多样化的开发路径,助力他们在各自的研究方向上取得突破。Cb628资讯网——每日最新资讯28at.com

一时间,在开源社区备受追捧的通义千问 Qwen 模型,因这一轮推理模型技术新浪潮又一次成为大家关注的焦点。Cb628资讯网——每日最新资讯28at.com

李飞飞团队与 DeepSeek 纷纷选择 Qwen 作为基座模型,已经足以引发业界的关注和广泛讨论,而这一现象背后,不仅是 Qwen 模型自身强大的性能与独特优势的体现,更是开源理念推动技术进步的生动案例。Cb628资讯网——每日最新资讯28at.com

那么 Qwen 模型究竟强在哪里?又为什么如此受到热捧呢?认为主要有以下几点原因。Cb628资讯网——每日最新资讯28at.com

首先,是阿里云 Qwen 模型具有强劲的性能优势。Cb628资讯网——每日最新资讯28at.com

据了解,阿里云通义千问 Qwen 模型自 2023 年 8 月起相继开源了 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型,涵盖了大语言模型、多模态模型、数学模型和代码模型等数十款。这些模型在全球多个权威榜单上屡次斩获“全球开源冠军”,性能全球领先。Cb628资讯网——每日最新资讯28at.com

例如,在 HuggingFace 的 Open LLM Leaderboard、Chatbot Arena 大模型盲测榜单、司南 OpenCompass 等多个国内外知名榜单上,Qwen 模型都展现出了卓越的实力。其强大的性能为开发者提供了坚实的基础,使得基于 Qwen 开发的模型能够在各种应用场景中表现出色。Cb628资讯网——每日最新资讯28at.com

除了强劲的性能,Qwen 模型的开源策略也是是其受到广泛欢迎的重要原因之一。Cb628资讯网——每日最新资讯28at.com

要知道,阿里云率先实现了“全尺寸、全模态、多场景”的开源,从 1.5B 到 72B 乃至 110B,Qwen 开源的模型尺寸及版本覆盖面最广。这种多样化的选择为开发者和企业提供了极大的便利,无论是小型项目还是大规模应用,都能找到适合的 Qwen 模型版本。2024 年,仅 Qwen2.5-1.5B-Instruct 这款模型,就占到了全球模型下载量的 26.6%,远高于第二名 Llama-3.1-8B-Instruct-GGUF 的 6.44%。同时仅视觉理解 Qwen-VL 及 Qwen2-VL 两款模型,全球下载量就突破 3200 万次,一周前,Qwen2.5-VL 全新升级,又引发新一轮开源社区狂热。这充分说明了 Qwen 模型在开源社区中的受欢迎程度。Cb628资讯网——每日最新资讯28at.com

Cb628资讯网——每日最新资讯28at.com

第三点,Qwen 模型的火热还得益于其庞大的衍生模型群。Cb628资讯网——每日最新资讯28at.com

截至目前,海内外开源社区中 Qwen 的衍生模型数量已突破 9 万,超越了 Llama 系列衍生模型,成为世界最大的生成式语言模型族群。这一庞大的衍生模型群不仅体现了 Qwen 模型的广泛影响力,也反映了其在技术上的可扩展性和适应性。全球 AI 模型开发者都可以基于 Qwen 进行不同技术的差异化比较,从而进一步推动了 Qwen 的火热。这种开源生态的繁荣,使得 Qwen 成为了开源社区事实上最重要的标杆基座模型。Cb628资讯网——每日最新资讯28at.com

通过以上三点的分析,我们其实已经可以得出结论:Qwen 模型性能强劲,开源尺寸多样化,并且拥有全球最大的衍生模型群,已经取代 Llama 成为开源社区事实上最重要的标杆基座模型。Cb628资讯网——每日最新资讯28at.com

总之,阿里云通义千问 Qwen 模型因其强劲的性能、开源与尺寸多样化以及庞大的衍生模型群等优势,成为了李飞飞团队和 DeepSeek 的共同选择。这不仅展示了 Qwen 模型在人工智能领域的卓越实力,也体现了开源理念在推动技术创新、促进开源生态建设和助力行业应用落地等方面的重要价值。随着人工智能技术的不断发展,我们有理由相信,Qwen 模型将继续引领开源潮流,为全球人工智能的发展贡献更多力量。Cb628资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10553-0.html从 DeepSeek 火热,到李飞飞团队新成果,“幕后高手”竟是它

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 斥 300 亿-500 亿美元巨资,法国、阿联酋将共建 AI 专用数据中心

下一篇: 受谷歌 750 亿美元 AI 投资提振,英伟达股价一度涨超 5%

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • “啫喱”超越微信登顶:首款“元宇宙社交App”会昙花一现吗?

    作者| 赤木瓶子如何终结“昙花一现”的命运,是潮流社交产品的长期命题,如今,在元宇宙浪潮的洗礼下,这一命题正在迎来新的可能性。近段时间,一款名为“啫喱”的社交A
  • 传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    今日热点:传腾讯已推出全新XR业务;摩托罗拉与Verizon合作打造5G XR颈戴式计算组件;小米AR购物导航专利获授权;VR一体机Simula One放弃众筹并开放直接预订;VR游戏《
  • 从NFT顶级公链到Web3.0基础设施:带你了解不一样的Flow

    对于大部分年轻人来说,刚刚过去的春节有一个词语突然成为了品牌宣传的流行语,作为从NFT中衍生出来的“数字藏品”一时间获得了不少品牌青睐,他们纷纷推出自己的数
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
Top