当前位置:首页 > 科技  > 资讯

DeepSeek颠覆了什么?——大模型“国产之光”破局的启示

来源: 责编: 时间:2025-02-08 08:27:23 197观看
导读潘悦 制图 一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。 短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型

3Ta28资讯网——每日最新资讯28at.com

潘悦 制图3Ta28资讯网——每日最新资讯28at.com

  一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。3Ta28资讯网——每日最新资讯28at.com

  短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。3Ta28资讯网——每日最新资讯28at.com

  最新一期《经济学人》封面文章第一时间让位给这一土生土长的国产大模型:《低成本中国模型的成功动摇美国科技优势》。很快,华尔街也同样感受到了这种被动摇的震感。3Ta28资讯网——每日最新资讯28at.com

  事实上,这匹黑马的贡献绝非“低成本”这一个标签所能概括。它不仅重新定义了大模型的生产函数,还将重新定义计算。3Ta28资讯网——每日最新资讯28at.com

  不论开源与闭源未来的优势如何,这股冲击波都将迫使全球科技界重新思考:当“规模定律”与“生态壁垒”不再绝对,什么才是下一赛季AI竞争的核心?或许我们能从中获得新的启示。3Ta28资讯网——每日最新资讯28at.com

  击穿三大定式3Ta28资讯网——每日最新资讯28at.com

  1月下旬,DeepSeek在中区、美区苹果App Store下载榜单中登顶,超越ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。具体而言,它颠覆了什么?3Ta28资讯网——每日最新资讯28at.com

  ——打破“越强越贵”的成本诅咒3Ta28资讯网——每日最新资讯28at.com

  价格感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,而o1模型上述三项服务的定价分别是55元、110元、438元。3Ta28资讯网——每日最新资讯28at.com

  凡是使用过几款大模型的用户很快就能形成这样一个共识:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答问题之前还能给出它的推理过程和思考链路。AI投资机构Menlo Ventures负责人Deedy对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。3Ta28资讯网——每日最新资讯28at.com

  然而在过去,大模型服务是标准的“一分钱一分货”,想要用上更优性能的产品必须支付更高昂的费用,以覆盖整个模型训练过程中更高算力成本的支出。3Ta28资讯网——每日最新资讯28at.com

  ——超越“性能-成本-速度”的不可能三角3Ta28资讯网——每日最新资讯28at.com

  当硅谷仍在为GPU万卡集群豪掷千亿资金时,一群土生土长的中国年轻人用557.6万美元证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更具性价比。”3Ta28资讯网——每日最新资讯28at.com

  传统模型训练,需要在性能、成本、速度之间权衡,其高性能的获得,需要极高的成本投入、更漫长的计算时间。而DeepSeek重构了大模型的“成本-性能”曲线,同时压缩了计算周期。3Ta28资讯网——每日最新资讯28at.com

  根据DeepSeek技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。而使用过程中,DeepSeek给出反馈的时长也大部分控制在5秒至35秒之间,通过算法轻量化、计算效率最大化、资源利用率优化,成功压缩了计算时间,降低了延迟。3Ta28资讯网——每日最新资讯28at.com

  ——走出“参数膨胀”陷阱3Ta28资讯网——每日最新资讯28at.com

  ChatGPT横空出世后700多天里,全球人工智能巨头不约而同走上了一条“大力出奇迹”的“暴力美学”路线,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。3Ta28资讯网——每日最新资讯28at.com

  而另辟蹊径的DeepSeek恰巧处于对角线的另一端:并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”路线,打破了“参数膨胀”的惯性。3Ta28资讯网——每日最新资讯28at.com

  例如DeepSeek-R1(4B参数)在数学推理、代码生成等任务上具有比肩70B参数模型(如Llama-2)的能力,通过算法优化、数据质量提升,小参数模型一样能实现高性能,甚至能够“四两拨千斤”。3Ta28资讯网——每日最新资讯28at.com

  实现三大跃升3Ta28资讯网——每日最新资讯28at.com

  “DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。3Ta28资讯网——每日最新资讯28at.com

  算力封锁下的有力破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。3Ta28资讯网——每日最新资讯28at.com

  ——技术架构:重新定义参数效率3Ta28资讯网——每日最新资讯28at.com

  大模型的千亿参数不应是冰冷的数字堆砌,而应是巧夺天工般地重组整合。3Ta28资讯网——每日最新资讯28at.com

  传统大模型Transformer架构好比一条承载车辆的高速公路,当车辆(数据)数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),导致堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货物(数据)按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。因此既能提高速度又能节约能耗。3Ta28资讯网——每日最新资讯28at.com

  ——数据策略:质量驱动的成本控制3Ta28资讯网——每日最新资讯28at.com

  DeepSeek研发团队相信,用“炼数据”取代“堆数据”,能使训练更具效率。3Ta28资讯网——每日最新资讯28at.com

  传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶:一方面自动识别高价值数据片段(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。3Ta28资讯网——每日最新资讯28at.com

  ——工程实践:架起“超级工厂”流水线3Ta28资讯网——每日最新资讯28at.com

  大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于一方面通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。3Ta28资讯网——每日最新资讯28at.com

  至于推理过程,传统模型好比现点现做的餐厅,客户等菜时间长,推理过程慢。而DeepSeek采用的INT4量化,能把复杂菜品提前做成预制菜,加热(计算)时间减半,口味损失不到5%,实现了大模型的低成本工业化。3Ta28资讯网——每日最新资讯28at.com

  超越技术的启示3Ta28资讯网——每日最新资讯28at.com

  拆解DeepSeek的成功公式不难发现,通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,提供了中小型机构突破算力限制的可行路径。此外,我们还能从中得到一些超越技术的启示。3Ta28资讯网——每日最新资讯28at.com

  一直以来,驱动DeepSeek的目标并非利润而是使命。“探索未至之境”的愿景也指向一种与之匹配的极简且清爽的组织架构。3Ta28资讯网——每日最新资讯28at.com

  一名人工智能科学家表示,在人工智能大模型领域,大厂、高校、传统科研机构、初创公司在资源禀赋上其实各有优势,但结构性的局限很难扭转。DeepSeek这种类型的初创公司能很好地弥补其中的一个缺位——具有大工程能力、不受制于短视商业逻辑的创新定力、创业团队扁平化组织机制带来的丝滑流畅的协作度。3Ta28资讯网——每日最新资讯28at.com

  据不具名人士透露,其V3模型的关键训练架构MLA就源于一位年轻研究员的个人兴趣,经过研判后DeepSeek组建了专项团队开展大规模验证与攻关。而R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力,核心原因之一也归功于其青年团队对前沿技术的敏锐嗅觉与大胆尝试。3Ta28资讯网——每日最新资讯28at.com

  “我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力,调动他们高效地进行创造力与好奇心驱动的创新。”DeepSeek创始人梁文锋说。3Ta28资讯网——每日最新资讯28at.com

  在DeepSeek身上,我们看到了皮克斯动画工作室的影子。这个年轻的中国初创企业与那个创作27部长片有19部获得奥斯卡最佳动画、同样以创新为鲜明标签的组织,有着不谋而合的组织机制与范式选择,以及由此带来的高企的创新成功率与人才留存率。3Ta28资讯网——每日最新资讯28at.com

  不同于先发者略显封锁的护城堡垒,DeepSeek赢得赞誉的还有它的开源路线。将代码、模型权重和训练日志全部公开,不仅需要格局,更需要勇气与实力。3Ta28资讯网——每日最新资讯28at.com

  “在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”3Ta28资讯网——每日最新资讯28at.com

  从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用创新”的成见,重塑竞争优势的奥秘。3Ta28资讯网——每日最新资讯28at.com

  北京时间2月1日凌晨,在OpenAI发布其推理系列最新模型o3-mini时,我们从中看到了一个熟悉的字眼:“Deep research”。这是否是国产之光“被follow”的开端尽管不好断言,但我们至少身体力行走出了一条“大力出奇迹”之外,另一条具有自主创新基因的制胜之道。3Ta28资讯网——每日最新资讯28at.com

  正如梁文锋此前接受采访时所说,“中国要逐步成为贡献者,而不是一直‘搭便车’。”(记者 张漫子)3Ta28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-129144-0.htmlDeepSeek颠覆了什么?——大模型“国产之光”破局的启示

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 英媒: DeepSeek打破美对AI话语权垄断

下一篇: 智启荆楚春!湖北人形机器人展现人工智能新成果

标签:
  • 热门焦点
  • 六大权益!华为8月服务日开启:手机免费贴膜、维修免人工费

    8月5日消息,一年一度的华为开发者大会2023(Together)日前在松山湖拉开帷幕,与此同时,华为8月服务日也式开启,到店可享六大专属权益。华为用户可在华为商城Ap
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 花7万退货退款无门:谁在纵容淘宝珠宝商家造假?

    来源:极点商业作者:杨铭在淘宝购买珠宝玉石后,因为保证金不够赔付,店铺关闭,退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书,支持全国复检,可以30天无理由退换货。&
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • iQOO 11S新品发布会

    iQOO将在7月4日19:00举行新品发布会,推出杭州亚运会电竞赛事官方用机iQOO 11S。
  • Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top