当前位置：首页 > 科技 > 数码

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

来源：责编：时间：2024-07-06 07:41:58 343观看

导读无论是游戏显卡还是AI加速卡，NVIDIA都已经是绝对垄断地位，而在当前的形势下，我们不但要有自己的游戏卡，更要有自己的加速卡。这个重担，摩尔线程英勇地都扛了起来，率先交付全国产千卡千亿模型算力集群之后，又率先拓

无论是游戏显卡还是AI加速卡，NVIDIA都已经是绝对垄断地位，而在当前的形势下，我们不但要有自己的游戏卡，更要有自己的加速卡。

这个重担，摩尔线程英勇地都扛了起来，率先交付全国产千卡千亿模型算力集群之后，又率先拓展到了万卡、万P、万亿规模！

摩尔线程重磅宣布，AI旗舰产品夸娥（KUAE）智算集群解决方案重大升级，从当前的千卡级别，扩展至万卡规模，从而具备万P级或者说10E级浮点运算能力，也就是每秒可执行千亿亿次级别的计算。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

所谓万卡集群，顾名思义，就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统，主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术，堪称一台“超级计算机”，可支持千亿级、万亿级参数规模的大模型训练，可以大幅提高训练效率、缩短训练时间，快速迭代模型能力。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

在国外，诸多科技巨头都已经部署了万卡集群，拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露，新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练，因此将会“非常特别”，为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU，Meta训练下一代大模型的两个集群拥有24576块H100 GPU，16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内，字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群，研发MegaScale生产系统，用于训练大语言模型，科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。

由此可见，在AI模型训练的主战场，万卡集群已成为低入场券。

但是，万卡集群乍一看只是千卡集群的拓展和延伸，它绝非简单的更多计算卡叠加，而是一个超级复杂的系统工程，需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

那么，万卡集群如此难做，摩尔线程作为成立还不到4年的国产GPU企业，为什么要去挑战呢？

这是一条难而正确的事情，摩尔线程推出夸娥万卡智算集群解决方案，就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台，并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调：“要挑战难做的事情，除了有勇气之外，还要有能力，要有很好的团队，有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才，否则是很难做成的。做成一件事情，其实不是偶然的，而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定，但是不管什么样的决定，真正强的团队才是核心。摩尔线程就有很强的团队，这么多年的经验，我们在GPU行业里的知识、Know-how，碰到过的困难，解决过的难题，对我们来说都是非常宝贵的经验。”

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

夸娥，是摩尔线程的智算中心全栈解决方案，以其自主研发的全功能GPU为底座，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）、夸娥大模型服务平台（KUAE Model Studio），软件硬件一体化，训练推理一体化，交付一体化，可以开箱即用，提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽，可实现系统性协同优化，从而达到超强的算力，并且MFU高可以达到60％。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

稳定性也是卓尔不群，平均无故障运行时间超过15天，长可以稳定训练大模型30天以上，周均训练有效率超过99％，远超行业平均水平，而且可以性能自动调休、问题自动诊断，2分钟内就能快速修复，进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：软硬件故障的自动定位与诊断预测，实现分钟级的故障定位；Checkpoint多级存储机制，实现内存秒级存储和训练任务分钟级恢复；高容错高效能的万卡集群管理平台，实现秒级纳管分配与作业调度。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

此外还有强大的通用性，支持所有主流大模型训练，可加速LLM、MoE、多模态、Mamba等不同架构、不同模态，支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时，基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify，开发者只需极短的时间、极少的工作就能完成迁移，甚至几乎不需要修改代码，迁移成本趋近于零。

值得一提的是，摩尔线程表示，如果已经适配过摩尔线程的千卡集群，不需要任何额外工作就可以无缝跑在万卡集群上，而哪怕是第一次适配万卡集群，也只需几个小时，只是性能调优需要花一点时间，主要是模型使用方法不同、芯片厂商策略不同所致。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

目前，摩尔线程已经实现从芯片到算力卡，从一体机到节点集群的全栈式覆盖，支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

－大模型智算加速卡MTT S4000

训推兼顾，专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽，并支持摩尔线程自研MTLink 1.0互连技术，卡间互连带宽240GB/s，从而支持高效多卡互联。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

－ AI大模型训推一体机MCCX D800

双路八卡GPU服务器，专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达16×64GB DDR5内存、2×480GB SATA系统盘、4×3.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

－ AI超融合一体机（KUAE FUSION）

夸娥智算集群的单个节点，如今也可作为单独产品提供，可以任意并联扩展。

它基于MCCX D800 训推一体机，属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

目前，摩尔线程万卡集群项目已经完成了三项战略签约，分别是：

与青海移动的青海零碳产业园万卡集群；

与青海联通、北京德道信科集团的青海高原万卡集群，；

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面，摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等，都与摩尔线程有着深入的合作，尤其是利用摩尔线程夸娥智算集群，助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

在上海举办的世界人工智能大会WAIC 2024期间，摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外，还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

AI算力底座展示区，包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台，以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台，是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具，可以良好兼容CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。

夸娥大模型推理平台，基于高效的MT Transformer大模型推理引擎，支持业内主流vLLM推理框架、MUSA Serving自研推理框架等，帮助开发人员高效地在云端部署高性能推理服务。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

AIGC创作生产力展区，可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台“摩笔马良”。

它部署了摩尔线程自研大语言模型MUSAChat，可以及时润色、翻译用户的输入文本，进一步增强语义理解，还可以基于用户的文本指向，灵活调用SDXL、SD1.5两代模型能力，生成细节丰富、有艺术感的图像结果。

同时，结合多种IP-Adapter、ControlNet技术，它还支持“创意人像”，上传一张个人照片，以文字描述目标风格，1分钟内就可以得到细腻、逼真的人像图片，而且无需训练、风格不限。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

“摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案，可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲，即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材，并自动合成图文绘本故事和视频绘本故事。

“MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台，构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线，轻松实现三维重建，可用于影视、动画、游戏、元宇宙等领域。

“Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目，利用开源社区的力量，完成对Sora文生视频的复现，当前在Github上有超过1万开发者，摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

在产业数智化升级展示区，可以看到基于人工智能气象预报大模型书生·风乌的气象预测应用、基于东华软件私有化大模型智多型（A.I.Cogniflex）的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

值得一提的是，依托夸娥智算集群的强兼容、高算力等特性，风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移，首次实现从硬件到算法的全国产化，且性能、精度均达到国际先进水平。

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

本文链接：http://www.28at.com/showinfo-24-99087-0.html国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： 210W性能释放！Redmi G Pro游戏本i7版上架：i7-14650HX+RTX 4060

下一篇： 1999元技嘉B650E AORUS PRO X USB4主板开售：双USB4

标签：

热门焦点

容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

8月5日消息，云存储服务商Backblaze发布了最新的硬盘故障率报告，年故障率有所上升。Backblaze发布的硬盘季度统计数据，其中包括故障率等重要方面。这些结
轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

近日，上海青浦区法院判决轿车从天而降电动车主被撞身亡案，轿车车主被判有期徒刑一年。案件显示当时男子驾驶轿车在上海某路段行驶，前车忽然转弯提速超车，
量化指标是与非：挽救被量化指标扼杀的技术团队

作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享，更多精彩内容及现场PPT，请关注51CTO技术栈公众号，发消息【WOT2023PPT】即可直接领取
只需五步，使用start.spring.io快速入门Spring编程

步骤1打开https://start.spring.io/，按照屏幕截图中的内容创建项目，添加 Spring Web 依赖项，并单击“生成”按钮下载 .zip 文件，为下一步做准备。请在进入步骤2之前进行解压。图
梁柱接棒两年，腾讯音乐闯出新路子

文丨田静出品丨牛刀财经（niudaocaijing）7月5日，企鹅FM发布官方公告称由于业务调整，将于9月6日正式停止运营，这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
本地生活这块肥肉，拼多多也想吃一口

出品/壹览商业作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期，拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现，该界面目前主要
四年持续更迭坚持探索行业无人之境，HarmonyOS 4带来五大升级多项创新

除了华为每年新发布的旗舰手机系列，上亿花粉更加期待鸿蒙系统每次的跨版本大更新。8月4日，HarmonyOS 4于HDC 2023正式发布，这也是该系统历经四年的再
2022爆款：ROG魔霸6 冰川散热系统持续护航

喜逢开学季，各大商家开始推出自己的新产品，进行打折促销活动。对于忠实的端游爱好者来说，能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
苹果MacBook Pro 2021测试：仍不支持平滑滚动

据10月30日9to5 Mac 消息报道，苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价，亮点包括行业领先的性能，令人印象深刻的电池续航，精美丰

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

量化指标是与非：挽救被量化指标扼杀的技术团队

只需五步，使用start.spring.io快速入门Spring编程

梁柱接棒两年，腾讯音乐闯出新路子

本地生活这块肥肉，拼多多也想吃一口

四年持续更迭坚持探索行业无人之境，HarmonyOS 4带来五大升级多项创新

2022爆款：ROG魔霸6 冰川散热系统持续护航

苹果MacBook Pro 2021测试：仍不支持平滑滚动

最新推荐

猜你喜欢

热门推荐

相关资讯