当前位置:首页 > 科技  > 手机

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复

来源: 责编: 时间:2025-06-11 10:00:09 162观看
导读 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工&rdqu

大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。zMv28资讯网——每日最新资讯28at.com

但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工”了:zMv28资讯网——每日最新资讯28at.com

-训练可用度达98%:这就好比你开着一辆车,全年365天里,有358天无论刮风下雨都能一脚油门就出发,从不掉链子,有问题可以随时检修,几乎不会耽误你的任何行程。zMv28资讯网——每日最新资讯28at.com

-线性度超95%:比如用1000台算力卡干活比用100台快9.5倍以上,叠加更多算力,训练速度近似等比提升,不浪费资源。zMv28资讯网——每日最新资讯28at.com

-秒级恢复、分钟级诊断:不论训练还是推理,故障后几秒钟就可恢复;几分钟内定位到具体是哪台机器、哪个部件出问题。zMv28资讯网——每日最新资讯28at.com

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复zMv28资讯网——每日最新资讯28at.com

或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗?zMv28资讯网——每日最新资讯28at.com

答案是肯定的,需要,且有必要。zMv28资讯网——每日最新资讯28at.com

因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成百上千的CT照片。zMv28资讯网——每日最新资讯28at.com

这些看似简单的智能应用,其实都离不开如 “超级大脑” 般的AI算力集群,需要它们全天候不停歇地运转着。zMv28资讯网——每日最新资讯28at.com

而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。zMv28资讯网——每日最新资讯28at.com

更严格来说,AI推理的可用度甚至还需要达到99.95%的程度。zMv28资讯网——每日最新资讯28at.com

那么华为又是如何做到这点的?zMv28资讯网——每日最新资讯28at.com

关于这一切背后的秘密,华为在今天首次把技术给公开了出来。zMv28资讯网——每日最新资讯28at.com

高可用的核心:三套“智能保险系统”zMv28资讯网——每日最新资讯28at.com

AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。zMv28资讯网——每日最新资讯28at.com

要解决问题,首先得确定故障出在哪个大的领域,接着再在这个领域内部一步步排查,确定具体的故障位置。在整个故障诊断过程中,面临的挑战非常大。zMv28资讯网——每日最新资讯28at.com

以往技术人员进行故障定位时,短则需数小时,长则可能耗时数天。这一过程不仅对技术人员的专业技能要求颇高,且往往难以快速锁定故障设备及根本原因。zMv28资讯网——每日最新资讯28at.com

为此,华为团队针对AI大集群面临的复杂挑战,构建了三大基础能力。zMv28资讯网——每日最新资讯28at.com

首先是全栈可观测能力。zMv28资讯网——每日最新资讯28at.com

它像是给集群装了一套“火眼金睛”监控系统(故障感知),主要包含这几部分:zMv28资讯网——每日最新资讯28at.com

-集群运行视图:实时查看集群整体运行状态,哪里 “卡壳” 一目了然;zMv28资讯网——每日最新资讯28at.com

-告警视图:哪里出问题了,系统会主动 “打报告”,快速发出警报;zMv28资讯网——每日最新资讯28at.com

-网络链路监控:盯着网络连接的 “血管”,确保数据传输顺畅;zMv28资讯网——每日最新资讯28at.com

-告警接入和配置:统一管理各种警报信息,还能根据需求灵活设置提醒规则;zMv28资讯网——每日最新资讯28at.com

-网络流可观测能力:追踪数据在网络中的 “流动轨迹”,哪里堵了马上能发现。zMv28资讯网——每日最新资讯28at.com

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复zMv28资讯网——每日最新资讯28at.com

同时,华为还拿出了一套 “故障诊断组合拳”,包含四大核心能力:zMv28资讯网——每日最新资讯28at.com

-全栈故障模式库:就像一本 “故障字典”,收录了各种可能的问题模式,方便快速对照排查;zMv28资讯网——每日最新资讯28at.com

-跨域故障诊断:不管故障藏在哪个 “领域”(软件、硬件、网络等),都能跨区域 “联合破案”;zMv28资讯网——每日最新资讯28at.com

-计算节点故障诊断:精准定位计算单元(比如服务器)的具体问题,揪出 “罢工” 的节点;zMv28资讯网——每日最新资讯28at.com

-网络故障诊断:专门对付网络里的 “疑难杂症”,比如断网、延迟高、链路异常等。zMv28资讯网——每日最新资讯28at.com

这套组合拳让集群故障诊断更高效,就像给工程师配了 “智能侦探工具”,大大缩短了找问题的时间。zMv28资讯网——每日最新资讯28at.com

后,是一套“钢铁韧带”自愈系统(容错设计)。zMv28资讯网——每日最新资讯28at.com

想要把超平面网络的厉害之处完全发挥出来,超节点的规模就得足够大。不过到现在,还没有哪个团队能用光链路搭建超节点并成功的。zMv28资讯网——每日最新资讯28at.com

于是,华为团队就琢磨出一套超节点光链路软件容错的好办法。zMv28资讯网——每日最新资讯28at.com

这套办法就像给超节点穿上了好几层 “防护铠甲”,用上 “超时代答”“绿色通道” 这些关键技术后,超节点基本不会出现大故障。zMv28资讯网——每日最新资讯28at.com

同时,又通过链路级重传、光模块动态调整Lane、重新执行HCCL算子、借轨通信、双层路由快速恢复、Step级重新调度等技术,让超节点对光模块突然中断这类故障的承受能力变得超强,能容忍超过99%的光模块闪断情况。zMv28资讯网——每日最新资讯28at.com

哪怕超节点里的光模块数量一下子增加了10倍还多,依靠软件提升可靠性的手段,再配合光链路压力测试技术,光模块闪断的概率能降低到和传统电链路差不多的水平,稳稳保障超平面网络不出问题。zMv28资讯网——每日最新资讯28at.com

而且,华为团队还打造出Step级重调度能力,以前遇到频繁的 HBM 多比特 ECC 故障,修复可能要花很长时间,现在1分钟内就能搞定,用户因为故障损失的算力也减少了5%,实实在在地省下了不少 “计算力”。zMv28资讯网——每日最新资讯28at.com

计算卡再多,也不影响效率zMv28资讯网——每日最新资讯28at.com

线性度指标,简单来说就是看算力卡数量增加后,训练任务的速度或效率能提高多少(比如完成时间缩短的比例)。zMv28资讯网——每日最新资讯28at.com

举个例子:如果算力卡增加2倍,训练速度也能接近2倍,说明线性度高;如果速度只提高1.2倍,就说明线性度差,资源没被充分利用。zMv28资讯网——每日最新资讯28at.com

为了让训练效率随着算力卡增多而 “更成正比地提升”,华为团队研发了四项关键技术:zMv28资讯网——每日最新资讯28at.com

TACO(拓扑感知的协同编排技术):就像给算力卡 “排兵布阵”,根据硬件连接结构(比如网络拓扑)智能分配任务,避免 “通信堵车”。zMv28资讯网——每日最新资讯28at.com

NSF(网络级网存算融合技术):把网络传输、数据存储和计算能力 “打包优化”,让数据在算力卡之间流动更顺畅,减少等待时间。zMv28资讯网——每日最新资讯28at.com

NB(拓扑感知的层次化集合通信技术):针对大规模集群设计 “分层通信策略”,比如让同一区域的算力卡先快速协作,再跨区域同步,提升整体通信效率。zMv28资讯网——每日最新资讯28at.com

AICT(无侵入通信跨层测量与诊断技术):不干扰正常训练的前提下,实时 “监控” 通信链路,快速发现哪里 “卡顿” 并修复,确保数据传输稳定。zMv28资讯网——每日最新资讯28at.com

通过这四项技术,华为让Pangu大模型的训练线性度(即效率随算力卡增加的提升比例)明显提高。zMv28资讯网——每日最新资讯28at.com

整体方案的思路大概如下图所示:zMv28资讯网——每日最新资讯28at.com

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复zMv28资讯网——每日最新资讯28at.com

实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。zMv28资讯网——每日最新资讯28at.com

训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%。zMv28资讯网——每日最新资讯28at.com

具备秒级恢复的能力zMv28资讯网——每日最新资讯28at.com

在大规模AI集群运行时,经常会因为各种硬件或软件故障,导致训练任务突然中断。zMv28资讯网——每日最新资讯28at.com

目前行业里常用的办法是,在训练过程中定期保存 “进度存档”(CKPT),等故障修复后从存档点继续训练。zMv28资讯网——每日最新资讯28at.com

华为则凭借软硬件全方面的技术创新,打造了一套 “分层分级” 的训练任务故障快速恢复系统。zMv28资讯网——每日最新资讯28at.com

简单来说,就是针对不同类型、不同程度的故障,制定了对应的 “快速重启方案”,让训练任务能更快 “续上”。zMv28资讯网——每日最新资讯28at.com

不同层级的故障恢复能力可以参考下面这张图:zMv28资讯网——每日最新资讯28at.com

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复zMv28资讯网——每日最新资讯28at.com

除此之外,华为采用了一系列提速 “黑科技”:比如优化数据集查找速度、缓存模型编译结果、加快通信链路建立、提升训练进度保存效率。zMv28资讯网——每日最新资讯28at.com

这些技术效果显著:如果是万卡规模的超大型集群,从故障中恢复训练,10分钟内就能搞定;要是用 “进程级重调度恢复” 方法,3分钟内就能接着训练;要是用更厉害的 “进程级在线恢复”,30秒就能重新开始训练。zMv28资讯网——每日最新资讯28at.com

而且,不管集群规模有多大,模型有多复杂,恢复时间基本不受影响,还能把因为故障导致的训练进度倒退时间,压缩到一次训练循环的时长。zMv28资讯网——每日最新资讯28at.com

这么一来,AI集群能用的时间大大增加,大模型训练的效率也快了很多。zMv28资讯网——每日最新资讯28at.com

在训练阶段后的推理,也有诸多问题亟待解决。zMv28资讯网——每日最新资讯28at.com

当千亿级MoE模型不断升级,模型部署的网络结构也跟着变了。以前单机8卡就足够跑一个推理实例,如今,大EP模型架构下,需要数十乃至上百张卡才能支撑推理运行。zMv28资讯网——每日最新资讯28at.com

但新架构带来个麻烦:用的设备越多,出故障的可能性就越大,而且一旦有问题,影响的范围会特别广。zMv28资讯网——每日最新资讯28at.com

只要有一个硬件出故障,整个Decode实例(可以理解成模型运行的一个 “小团队”)就没法工作了,直接导致AI推理业务出问题,严重的话整个业务都会停摆。zMv28资讯网——每日最新资讯28at.com

为了解决大EP推理架构容易出故障的难题,华为团队想出了一个分三步的 “保险计划”:zMv28资讯网——每日最新资讯28at.com

第一步是实例间切换,就像给业务准备了 “备用团队”,一个实例不行了,马上换另一个顶上;zMv28资讯网——每日最新资讯28at.com

第二步是实例内重启恢复,发现实例里有问题,快速重启内部程序,让它重新正常工作;zMv28资讯网——每日最新资讯28at.com

第三步是实例内无损恢复,即使出故障也不丢失数据,在不影响业务的情况下修复问题。zMv28资讯网——每日最新资讯28at.com

这三步方案需要芯片驱动、框架软件、平台系统各个层面紧密配合,组成一套完整的 “防护网”。遇到不同类型的故障,就用合适的恢复方法,尽可能减少对用户的影响,让AI推理业务稳稳运行。zMv28资讯网——每日最新资讯28at.com

华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复zMv28资讯网——每日最新资讯28at.com

在实例内重启恢复技术中,通过构建带内快速故障感知和重调度机制,搭配参数权重预热和镜像预热技术,能把实例内部的重启恢复时间压缩到5分钟以内。zMv28资讯网——每日最新资讯28at.com

还有一项很厉害的TOKEN级重试技术,当遇到HBM KV Cache故障时,从故障发生到重新输出Token的整个恢复过程不到10秒。zMv28资讯网——每日最新资讯28at.com

对比业界通常需要10分钟才能恢复实例的情况,这项技术能将故障带来的影响降低60倍,几乎让用户感觉不到故障发生,极大提升了系统的稳定性和用户体验。zMv28资讯网——每日最新资讯28at.com

总结来看,针对AI算力集群的高可用性,华为团队创新性提出了“3+3”双维度技术体系,即故障感知诊断、故障管理、集群光链路容错等三大基础能力,以及集群线性度、训练快恢、推理快恢等三大业务支撑能力。zMv28资讯网——每日最新资讯28at.com

这六大创新均带来了非常可观的收益,比如万卡集群训练可用度达到98%、集群训推快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。zMv28资讯网——每日最新资讯28at.com

技术报告地址:https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/HighAvailability/ascend-cluster-infra-ha.mdzMv28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-22-158402-0.html华为创造AI算力新纪录:万卡集群训练98%可用度 秒级恢复

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 吹过的牛都实现了!余承东发朋友圈纪念入职华为32年:攻无不克 巅峰之上 再上巅峰

下一篇: 618佳入手!华为笔记本Linux版 高效智慧体验如一

标签:
  • 热门焦点
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • iPhone卖不动了!苹果股价创年内最大日跌幅:市值一夜蒸发万亿元

    8月5日消息,今天凌晨美股三大指数高开低走集体收跌,道指跌0.41%;纳指跌0.36%;标普500指数跌0.52%。热门科技股也都变化极大,其中苹果报181.99美元,跌4.8%,创
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • AI艺术欣赏体验会在上海梅赛德斯奔驰中心音乐俱乐部上演

    光影交错的镜像世界,虚实幻化的视觉奇观,虚拟偶像与真人共同主持,这些场景都出现在2019世界人工智能大会的舞台上。8月29日至31日,“AI艺术欣赏体验会”在上海
  • 北京:科技教育体验基地开始登记

      北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌,后续还将开展常态化登记。  北京科技教育体验基
Top