当前位置:首页 > 科技  > 网络

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

来源: 责编: 时间:2024-10-30 15:57:24 214观看
导读 10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球强大的AI超级

10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus  AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球强大的AI超级计算机集群。brE28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPUbrE28资讯网——每日最新资讯28at.com

早在今年7月下旬,马斯克就在“X”平台上宣布,自己已经启动了“世界上强大的 AI 集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。brE28资讯网——每日最新资讯28at.com

根据ServeTheHome曝光的信息来看,庞大的Colossus  AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个H100 GPU,封装在 Supermicro 的 4U 通用 GPU 液冷系统内,为每个 GPU 提供简单的热插拔液冷。brE28资讯网——每日最新资讯28at.com

这些服务器装载在机架内,每个机架可容纳 8 台服务器,也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间,提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。brE28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△四组 xAI 的 HGX H100 服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)brE28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆,每台服务器有 4 个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)brE28资讯网——每日最新资讯28at.com

这些机架以 8 个为一组配对,每个阵列有 512 个 GPU。每台服务器都有四个冗余电源,GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。brE28资讯网——每日最新资讯28at.com

Colossus 集群中有超过 1500 个 GPU 机架,或近 200 个机架阵列。据英伟达首席执行官黄仁勋称,这 200 个阵列的 GPU 仅用了三周时间就完成了安装。brE28资讯网——每日最新资讯28at.com

由于 AI 超级集群不断训练模型的高带宽要求,xAI 在其网络互连性方面提供了超大的带宽。brE28资讯网——每日最新资讯28at.com

目前每个显卡都有一个 400GbE 的专用 NIC(网络接口控制器),每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行,而不是 InfiniBand 或其他在超级计算领域标配的连接。brE28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△仰望一大片的黄色以太网电缆,将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)brE28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△xAI 的 Colossus CPU 计算服务器,看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。(图片来源:ServeTheHome)brE28资讯网——每日最新资讯28at.com

当然,像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。brE28资讯网——每日最新资讯28at.com

Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU,可容纳存储和 CPU 计算,还具有后入式液体冷却功能。brE28资讯网——每日最新资讯28at.com

另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉 Megapack 电池(每个多可容纳 3.9 MWh)。brE28资讯网——每日最新资讯28at.com

该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。brE28资讯网——每日最新资讯28at.com


文章出处:芯智讯

本文链接:http://www.28at.com/showinfo-17-125045-0.html马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 别再随意扔掉!二手家电纸箱竟卖到数百元:买家究竟是谁

下一篇: 菜鸟全面接入京东非自营平台:提供电商快递和大件服务

标签:
  • 热门焦点
  • 5月iOS设备性能榜:M1 M2依旧是榜单前五

    和上个月一样,没有新品发布的iOS设备性能榜的上榜设备并没有什么更替,仅仅只有跑分变化而产生的排名变动,刚刚开始的苹果WWDC2023,推出的产品也依旧是新款Mac Pro、新款Mac Stu
  • 8月总票房已突破10亿!《封神》第一:口碑已经成了

    8月5日消息,据灯塔专业版数据,截至8月5日9时35分,8月总票房(含预售)已突破10亿。其中,《封神》以大比分的优势领先。根据官方消息,目前该片总票房已经超过14.
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 签约井川里予、何丹彤,单视频点赞近千万,MCN黑马永恒文希快速崛起!

    来源:视听观察永恒文希传媒作为一家MCN公司,说起它的名字来,可能大家会觉得有点儿陌生,但是说出来下面一串的名字之后,或许大家就会感到震惊,原来这么多网红,都签约这家公司了。根
  • 质感不错!OPPO K11渲染图曝光:旗舰IMX890传感器首次下放

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
Top