当前位置:首页 > 科技  > 数码

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒

来源: 责编: 时间:2024-03-20 08:49:33 362观看
导读 当地时间3月18日,人工智能(AI)芯片龙头厂商NVIDIA在美国加州圣何塞召开了GTC2024大会,正式发布了面向下一代数据中心和人工智能应用的“核弹”——基于Blackwell架构的B200 GPU,将在计算能

当地时间3月18日,人工智能(AI)芯片龙头厂商NVIDIA在美国加州圣何塞召开了GTC2024大会,正式发布了面向下一代数据中心和人工智能应用的“核弹”——基于Blackwell架构的B200 GPU,将在计算能力上实现巨大的代际飞跃,预计将在今年晚些时候正式出货。Sen28资讯网——每日最新资讯28at.com

同时,NVIDIA还带来了Grace Blackwell GB200超级芯片等。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA创始人兼CEO黄仁勋,NVIDIA目前按照每隔2年的更新频率,升级一次GPU构架,进一步大幅提升AI芯片的性能。Sen28资讯网——每日最新资讯28at.com

两年前推出的Hopper构架GPU虽然已经非常出色了,但我们需要更强大的GPU。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

B200:2080亿个晶体管,FP4算力高达 40 PFlopsSen28资讯网——每日最新资讯28at.com

NVIDIA于2022年发布了采用Hopper构架的H100 GPU之后,开始引领了全球AI市场的风潮。Sen28资讯网——每日最新资讯28at.com

此次推出的采用Blackwell构架的B200性能将更加强大,更擅长处理AI相关的任务。Blackwell构架则是以数学家David Harold Blackwell的名字命名。Sen28资讯网——每日最新资讯28at.com

据介绍,B200 GPU基于台积电的N4P制程工艺(这是上一代Hopper H100和Ada Lovelace架构GPU使用的N4工艺的改进版本),晶体管数量达到了2080亿个,是H100/H200的800亿个晶体管两倍多。这也使得B200的人工智能性能达到了20 PFlops。Sen28资讯网——每日最新资讯28at.com

黄仁勋表示,Blackwell构架B200 GPU的AI运算性能在FP8及新的FP6上都可达20 PFlops,是前一代Hopper构架的H100运算性能8 PFlops的2.5倍。Sen28资讯网——每日最新资讯28at.com

在新的FP4格式上更可达到40 PFlops,是前一代Hopper构架GPU运算性能8 PFlops的5倍。Sen28资讯网——每日最新资讯28at.com

具体取决于各种Blackwell构架GPU设备的內存容量和频宽配置,工作运算执行力的实际性能可能会更高。Sen28资讯网——每日最新资讯28at.com

黄仁勋强调,而有了这些额外的处理能力,将使人工智能企业能够训练更大、更复杂的模型。Sen28资讯网——每日最新资讯28at.com

需要指出的是,B200并不是传统意义上的单一GPU。相反,它由两个紧密耦合的GPU芯片组成,不过根据NVIDIA的说法,它们确实可以作为一个统一的CUDA GPU。Sen28资讯网——每日最新资讯28at.com

这两个芯片通过10 TB/s的NV-HBI(NVIDIA高带宽接口)连接连接,以确保它们能够作为一个完全一致的芯片正常工作。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

同时,对于人工智能计算来说,HBM容量也是极为关键。Sen28资讯网——每日最新资讯28at.com

AMD MI300X之所以被广泛关注,除了其性能大幅提升之外,其所配备的容量高达192GB HBM(高带宽内存)也是非常关键,相比NVIDIAH100 SXM芯片的80GB高了一倍多。Sen28资讯网——每日最新资讯28at.com

为了弥补HBM容量的不足,虽然NVIDIA也推出了配备141GB HBM的H200,但是仍大幅落后于AMD MI300X。Sen28资讯网——每日最新资讯28at.com

此次NVIDIA推出的B200则配备了同样的192GB HBM3e内存,可提供8 TB/s的带宽,弥补了这一薄弱环节。Sen28资讯网——每日最新资讯28at.com

虽然NVIDIA尚未提供关于B200确切的芯片尺寸,从曝光的照片来看,B200将使用两个全掩模尺寸的芯片,每个管芯周围有四个HMB3e堆栈,每个堆栈为24GB,每个堆栈在1024 bit接口上具有1TB/s的带宽。Sen28资讯网——每日最新资讯28at.com

需要指出的是,H100采用的是6个HBM3堆栈,每个堆栈16GB(H200将其增加到6个24GB),这意味着H100管芯中有相当一部分专门用于六个HBM内存控制器。Sen28资讯网——每日最新资讯28at.com

B200通过将每个芯片内部的HBM内存控制器接口减少到四个,并将两个芯片连接在一起,这样可以相应地减少HBM内存控制器接口所需的管芯面积,可以将更多的晶体管用于计算。Sen28资讯网——每日最新资讯28at.com

支持全新FP4/FP6格式Sen28资讯网——每日最新资讯28at.com

基于Blackwell架构的B200通过一种新的FP4数字格式达到了这个数字,其吞吐量是Hopper H100的FP8格式的两倍。Sen28资讯网——每日最新资讯28at.com

因此,如果我们将B200与H100坚持使用FP8算力来比较,B200仅提供了比H100多2.5倍的理论FP8计算(具有稀疏性),其中很大一部分原因来自于B200拥有两个计算芯片。Sen28资讯网——每日最新资讯28at.com

对于H100和B200都支持的大多数的数字格式,B200终在理论上每芯片算力提升了1.25倍。Sen28资讯网——每日最新资讯28at.com

再次回到4NP工艺节点在密度方面缺乏大规模改进的问题上。Sen28资讯网——每日最新资讯28at.com

移除两个HBM3接口,并制作一个稍大的芯片可能意味着B200在芯片级的计算密度上甚至不会显著更高。当然,两个芯片之间的NV-HBI接口也会占用一些管芯面积。Sen28资讯网——每日最新资讯28at.com

NVIDIA还提供了B200的其他数字格式的原始计算值,并应用了通常的缩放因子。Sen28资讯网——每日最新资讯28at.com

因此,FP8的吞吐量是FP4吞吐量的一半(10 PFlops级),FP16/BF16的吞吐量是5 PFlops级的一半,TF32的支持是FP16的一半(2.5 PFlops级)——所有这些都具有稀疏性,因此密集操作的速率是这些速率的一半。Sen28资讯网——每日最新资讯28at.com

同样,在所有情况下,算力可以达到单个H100的2.5倍。Sen28资讯网——每日最新资讯28at.com

那么FP64的算力又如何呢?Sen28资讯网——每日最新资讯28at.com

H100被评定为每GPU可提供60万亿次的密集FP64计算。如果B200具有与其他格式类似的缩放比例,则每个双芯片GPU将具有150万亿次浮点运算。Sen28资讯网——每日最新资讯28at.com

但是,实际上,B200的FP64性能有所下降,每个GPU约为45万亿次浮点运算。这也需要一些澄清,因为GB200超级芯片将是关键的构建块之一。Sen28资讯网——每日最新资讯28at.com

它有两个B200 GPU,可以进行90万亿次的密集FP64计算,与H100相比,其他因素可能会提高经典模拟的原始吞吐量。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

另外,就使用FP4而言,NVIDIA有一个新的第二代Transformer Engine,它将帮助用户自动将模型转换为适当的格式,以达到大性能。Sen28资讯网——每日最新资讯28at.com

除了支持FP4,Blackwell还将支持一种新的FP6格式,这是一种介于FP4缺乏必要精度但也不需要FP8的情况下的解决方案。Sen28资讯网——每日最新资讯28at.com

无论结果的精度如何,NVIDIA都将此类用例归类为“专家混合”(MoE)模型。Sen28资讯网——每日最新资讯28at.com

强AI芯片GB200Sen28资讯网——每日最新资讯28at.com

NVIDIA还推出了GB200超级芯片,它基于两个B200 GPU,外加一个Grace CPU,也就是说,GB200超级芯片的理论算力将会达到40 PFlops,整个超级芯片的可配置TDP高达2700W。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

黄仁勋也进一步指出,包含了两个Blackwell GPU和一个采用Arm构架的Grace CPU的B200,其推理模型性能比H100提升30倍,成本和能耗降至了原来的1/25。Sen28资讯网——每日最新资讯28at.com

除了GB200超级芯片之外,NVIDIA还带来了面向服务器的解决方案HGX B200,它基于在单个服务器节点中使用八个B200 GPU和一个x86 CPU(可能是两个CPU)。Sen28资讯网——每日最新资讯28at.com

这些TDP配置为每个B200 GPU 1000W,GPU可提供高达18 PFlops的FP4吞吐量,因此从纸面上看,它比GB200中的GPU慢10%。Sen28资讯网——每日最新资讯28at.com

此外,还有HGX B100,它与HGX B200的基本架构相同,有一个x86 CPU和八个B100 GPU,只是它被设计为与现有的HGX H100基础设施兼容,并允许快速地部署Blackwell GPU。Sen28资讯网——每日最新资讯28at.com

因此,每个GPU的TDP被限制为700W,与H100相同,吞吐量降至每个GPU 14 PFlops的FP4。Sen28资讯网——每日最新资讯28at.com

值得注意的是,在这三款芯片当中,HBM3e的每个GPU的带宽似乎都是8 TB/s。因此,只有功率,以及GPU核心时钟,也许还有核心数上会有不同。Sen28资讯网——每日最新资讯28at.com

但是,NVIDIA尚未透露任何Blackwell GPU中有多少CUDA内核或流式多处理器的细节。Sen28资讯网——每日最新资讯28at.com

第五代NVLink和NVLink Switch 7.2TSen28资讯网——每日最新资讯28at.com

人工智能和HPC工作负载的一大限制因素是不同节点之间通信的多节点互连带宽。Sen28资讯网——每日最新资讯28at.com

随着GPU数量的增加,通信成为一个严重的瓶颈,可能占所用资源和时间的60%。Sen28资讯网——每日最新资讯28at.com

在推出B200的同时,NVIDIA还推出其第五代NVLink和NVLink Switch 7.2T。Sen28资讯网——每日最新资讯28at.com

新的NVLink芯片具有1.8 TB/s的全对全双向带宽,支持576 GPU NVLink域。它也是基于台积电N4P节点上制造的,拥有500亿个晶体管。Sen28资讯网——每日最新资讯28at.com

该芯片还支持芯片上网络计算中的3.6万亿次Sharp v4,这有助于高效处理更大的模型。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

上一代NVSwitch支持高达100 GB/s的HDR InfiniBand带宽,是一个巨大飞跃。Sen28资讯网——每日最新资讯28at.com

与H100多节点互连相比,全新的NVSwitch提供了18X的加速。这将大大提高万亿参数模型人工智能网络的可扩展性。Sen28资讯网——每日最新资讯28at.com

与此相关的是,每个Blackwell GPU都配备了18个第五代NVLink连接。这是H100链接数量的18倍。Sen28资讯网——每日最新资讯28at.com

每条链路提供50 GB/s的双向带宽,或每条链路提供100 GB/s的带宽。Sen28资讯网——每日最新资讯28at.com

GB200 NVL72服务器Sen28资讯网——每日最新资讯28at.com

NVIDIA还针对有大型需求的企业提供服务器成品,提供完整的服务器解决方案。Sen28资讯网——每日最新资讯28at.com

例如GB200 NVL72服务器,提供了36个CPU和72个Blackwell构架GPU,并完善提供一体水冷散热方案,可实现总计720 PFlops的AI训练性能或1,440 PFlops的推理性能。Sen28资讯网——每日最新资讯28at.com

它内部使用电缆长度累计接近2英里,共有5,000条独立电缆。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

具体来说,GB200 NVL72 基本上是一个完整的机架式解决方案,有18个1U服务器,每个服务器都有两个GB200超级芯片。Sen28资讯网——每日最新资讯28at.com

然而,在GB200超级芯片的组成方面,与上一代相比存在一些差异。Sen28资讯网——每日最新资讯28at.com

曝光图片和规格表明,两个B200 GPU与一个Grace CPU匹配,而GH100使用了一个较小的解决方案,将一个GraceCPU与一个H100 GPU放在一起。Sen28资讯网——每日最新资讯28at.com

终结果是,GB200超级芯片计算托盘将具有两个Grace CPU和四个B200 GPU,具有80 PFlops的FP4 AI推理和40 PB的FP8 AI训练性能。Sen28资讯网——每日最新资讯28at.com

这些是液冷1U服务器,它们占据了机架中典型的42个单元空间的很大一部分。Sen28资讯网——每日最新资讯28at.com

除了GB200超级芯片计算托盘,GB200 NVL72还将配备NVLink交换机托盘。Sen28资讯网——每日最新资讯28at.com

这些也是1U液冷托盘,每个托盘有两个NVLink交换机,每个机架有九个这样的托盘。每个托盘提供14.4 TB/s的总带宽,加上前面提到的Sharp v4计算。Sen28资讯网——每日最新资讯28at.com

GB200 NVL72总共有36个Grace CPU和72个Blackwell GPU,FP8运算量为720 PB,FP4运算量为1440 PB。有130 TB/s的多节点带宽,NVIDIA表示NVL72可以处理多达27万亿个AI LLM参数模型。Sen28资讯网——每日最新资讯28at.com

NVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒Sen28资讯网——每日最新资讯28at.com

目前,亚马逊的AWS已计划采购由2万片GB200芯片组建的服务器集群,可以部署27万亿个参数的模型。Sen28资讯网——每日最新资讯28at.com

除了亚马逊的AWS之外,DELL、Alphabet、Meta、微软、OpenAI、Oracle和TESLA成为Blackwell系列的采用者之一。Sen28资讯网——每日最新资讯28at.com


文章出处:芯智讯

本文链接:http://www.28at.com/showinfo-24-77898-0.htmlNVIDIA造了个2080亿晶体管的怪物:FP4性能高达4亿亿次每秒

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: RTX 50升级台积电4NP工艺:但其实还是5nm

下一篇: 2080亿晶体管、1700W功耗!黄仁勋抛出了真正的战术核弹

标签:
  • 热门焦点
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 只需五步,使用start.spring.io快速入门Spring编程

    步骤1打开https://start.spring.io/,按照屏幕截图中的内容创建项目,添加 Spring Web 依赖项,并单击“生成”按钮下载 .zip 文件,为下一步做准备。请在进入步骤2之前进行解压。图
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • 2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 年轻人的“职场羞耻感”,无处不在

    作者:冯晓亭 陶 淘 李 欣 张 琳 马舒叶来源:燃次元“人在职场,应该选择什么样的着装?”近日,在网络上,一个与着装相关的帖子引发关注,在该帖子里,一位在高级写字楼亚洲金
  • 东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • 网传小米汽车开始筛选交付中心 建筑面积不低于3000平方米

    7月7日消息,近日有微博网友@长三角行健者爆料称,据经销商集团反馈,小米汽车目前已经开始了交付中心的筛选工作,要求候选场地至少有120个车位,建筑不能低
  • 北京:科技教育体验基地开始登记

      北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌,后续还将开展常态化登记。  北京科技教育体验基
Top