当前位置:首页 > 科技  > 数码

国产GPU进化!打造先进好用的“AI训练工厂”

来源: 责编: 时间:2025-07-30 14:22:44 125观看
导读 我们正站在AI狂飙的黄金时代——短短半年,全球顶尖模型“智力”飙升50%;2025年几乎每周都有重磅模型登场;从大语言模型到多模态架构,七类模型架构全速迭代。当传统“暴力堆卡”

我们正站在AI狂飙的黄金时代——短短半年,全球顶尖模型“智力”飙升50%;2025年几乎每周都有重磅模型登场;从大语言模型到多模态架构,七类模型架构全速迭代。pId28资讯网——每日最新资讯28at.com

当传统“暴力堆卡”的训练模式,越来越难以满足指数级增长的智能生产需求。AI产业亟需要一场“效率革命”,即构建新一代大型人工智能计算基础设施,以应对生成式AI进化。pId28资讯网——每日最新资讯28at.com

国内GPU厂商摩尔线程在WAIC 2025前夕出招了,要用国产全功能GPU打造一个AI“超级工厂”,直击大模型训练效率的瓶颈。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

这座AI工厂的“产能”,有一道硬核公式来衡量:pId28资讯网——每日最新资讯28at.com

AI工厂生产效率 = 加速计算通用性 x 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性pId28资讯网——每日最新资讯28at.com

摩尔线程的杀手锏“全功能GPU”,就是这座“AI工厂”的心脏。pId28资讯网——每日最新资讯28at.com

根据功能结构划分,GPU可分为图形GPU、GPGPU(通用计算GPU)与全功能GPU。既然是全功能GPU,你可以理解为,既能做图形,也能做AI,还可以做通用计算、科学计算等。全球范围内,也仅有NVIDIA掌握的尖端技术。而摩尔线程是国内唯一从功能上可以对标英伟达的国产全功能GPU企业。pId28资讯网——每日最新资讯28at.com

自2020年成立以来,摩尔线程一直致力于全功能GPU的研发与创新。全功能GPU具备更强的通用性,不仅可以服务数据中心,也具备下沉至消费端的潜力,是真正的全能型选手。pId28资讯网——每日最新资讯28at.com

截至目前,摩尔线程已完成了四代全功能GPU的迭代,其中包括支持FP8精度的新智算卡MTT S5000、训推一体全功能智算卡MTT S4000、支持千卡互联的第一代超大规模智算融合中心产品KUAE1,以及第二代万卡集群KUAE2,这些产品已实际交付多个智算中心。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

那么,摩尔线程如何打造世界先进的AI工厂?pId28资讯网——每日最新资讯28at.com

这是一项系统级创新工程,主要体现在五个关键方面:加速计算通用性、单芯片有效算力、单节点效率、集群效率和集群稳定性,这些因素环环相扣缺一不可。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

在加速计算通用性方面,摩尔线程自主研发的多引擎全功能GPU,率先实现在单芯片架构,同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码,并覆盖从FP8到FP64的全计算精度。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

不同精度的计算适用于不同的应用场景,例如FP8用于混合精度训练和大语言模型推理,INT8用于量化推理和CV推理,BF16/FP16用于机器学习和大语言模型训练,FP32/TF32用于3D渲染、游戏和高精度推理训练等,而FP64则主要用于科学计算,如天气预报和气候仿真等。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

摩尔线程的全功能GPU能够支持以上全部精度的训练推理,从而实现AI训练推理、科学计算、工业智能、自动驾驶、具身智能、生物制药、AIGC、AI智能体、游戏等全场景AI加速。pId28资讯网——每日最新资讯28at.com

有了应用场景,性能跟不上那也是白搭,摩尔线程自研的MUSA架构从底层基础设施到中间层管理平台,再到上层应用,实现了全面覆盖,通过计算、通信、存储技术创新,有效提升了单芯片有效算力。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

MUSA架构,是创新的多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通讯资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。pId28资讯网——每日最新资讯28at.com

在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

此外,DeepSeek曾在技术报告中提到,在通信过程中约15%的流式多处理器被占用,也就是差不多15%的算力没有用到训练中,而是被用于通信。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

摩尔线程是如何解决这个问题的呢,基于自研的MTLINK 2.0实现的集合通信库,实现卡间高速互联,高出国内行业平均水平60%的带宽;同时基于MTT S5000的异步通信引擎,从而实现高效计算与通信并行,减少了15%的计算资源损耗,为大规模集群部署奠定了坚实基础。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。pId28资讯网——每日最新资讯28at.com

有了单芯片的算力,还需要实现单节点的高效率,摩尔线程的MUSA全栈系统软件,通过高效的基础软件库,框架算法创新和完备的开发工具链提升了单节点计算效率。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

在GPU驱动任务调度优化方面,摩尔线程的核函数启动时间仅为业界平均耗时的1/2,核函数启动是指计算任务从CPU主机传输到GPU设备并执行的过程,传统方法中,较高的启动延迟会导致算力资源浪费。而摩尔线程则支持千次计算指令并行下发,从而大幅减少GPU等待时间。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

摩尔线程还对核心算子库进行了极致优化,比如GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%。pId28资讯网——每日最新资讯28at.com

在通信效率上,MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%。pId28资讯网——每日最新资讯28at.com

在开发生态兼容上,基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。pId28资讯网——每日最新资讯28at.com

此外,摩尔线程还提供了完整的开发者工具套件,如深度监控GPU并收集硬件性能数据的Torch Profiler,以及可以一键部署MUSA软件栈和AI服务程序的MUSA Deploy等。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

正是这种软硬协同与系统优化,实现了极致性能和效率,从平湖和国际主流GPU产品的实测对比数据中,我们可以直观地看到摩尔线程产品的优势。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

在集群方面,如前文所述,摩尔线程拥有支持千卡互联的KUAE1和支持万卡互联的第二代方案KUAE2,并实现了模型种类全支持,无论何种类型的模型都能适用,这也是真正满足AI工厂使用和实现的地方。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

根据官方分享的数据,KUAE2在不同架构模型的实测MFU数据对比中,性能和效率均处于行业领先水平。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

后也是重要的一点,那就是稳定性,集群不稳定的话,再高的性能再快的效率也没有任何意义,为此摩尔线程推出了零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断,这也使得KUAE集群有效训练时间占比超99%。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

针对集群中的慢节点,摩尔线程开发了一套多维度Training Insight,将异常处理效率提升了50%,结合集群巡检与起飞检查,训练成功率及速度提高了10%。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

综合来看,摩尔线程的高效AI工厂结合了全功能GPU、MUSA架构、MUSA软件栈、KUAE集群和零中断技术,为AI大模型训练提供了强大可靠的基础设施支持,而且只有这样的组合,才能确保每一个环节都达到佳状态。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

大模型训练完成后,还需要进行推理验证,摩尔线程的推理解决方案基于MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

通过实测,MTT S5000树立了DeepSeek全量模型推理速度的新标杆:跑满血DeepSeek R1推理模型,速度达到100 tokens/s。pId28资讯网——每日最新资讯28at.com

国产GPU进化!打造先进好用的“AI训练工厂”pId28资讯网——每日最新资讯28at.com

GPU可以说是AI时代稀缺的资源之一,也是大国科技竞争的焦点,其重要性不言而喻。我们深知硬科技研发的艰难,但摩尔线程还是选择了通用性强、难度高的全功能GPU路线。pId28资讯网——每日最新资讯28at.com

从全功能GPU的研发,到“AI工厂”概念的提出与实践,摩尔线程这条道路虽然充满挑战,但它无疑是能够走得长远的路径。未来,我们期待摩尔线程能够持续突破技术瓶颈,以更强大的算力、更高效的架构、更稳定的性能,为国产AI的发展注入强劲动力。pId28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-174289-0.html国产GPU进化!打造先进好用的“AI训练工厂”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 15999元碾压10万!当贝S7 Ultra Max发布:5800 CVIA行业亮、高对比度

下一篇: 中国首款6nm游戏GPU发布 性能超越RTX 4060

标签:
  • 热门焦点
  • 天猫精灵Sound Pro体验:智能音箱没有音质?来听听我的

    这几年除了手机作为智能生活终端最主要的核心之外,第二个可以成为中心点的产品是什么?——是智能音箱。 手机在执行命令的时候有两种操作方式,手和智能语音助手,而智能音箱只
  • 石头自清洁扫拖机器人G10S评测:多年黑科技集大成之作 懒人终极福音

    科技圈经常能看到一个词叫“缝合怪”,用来形容那些把好多功能或者外观结合在一起的产品,通常这样的词是贬义词,但如果真的是产品缝合的好、缝合的实用的话,那它就成了中性词,今
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 中国家电海外掘金正当时|出海专题

    作者|吴南南编辑|胡展嘉运营|陈佳慧出品|零态LT(ID:LingTai_LT)2023年,出海市场战况空前,中国创业者在海外纷纷摩拳擦掌,以期能够把中国的商业模式、创业理念、战略打法输出海外,他们依
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • 超级标准版旗舰!iQOO 11S全球首发iQOO超算独显芯片

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • Meta盲目扩张致超万人被裁,重金押注元宇宙而前景未明

    图片来源:图虫创意日前,Meta创始人兼CEO 马克·扎克伯发布公开信,宣布Meta计划裁员超11000人,占其员工总数13%。他公开承认了自己的预判失误:“不仅
Top