当前位置:首页 > 科技  > 芯片

AI GPU 变得更加“饥饿”:功耗之谜与挑战

来源: 责编: 时间:2023-11-28 09:32:57 188观看
导读近年来,人工智能数据中心的能耗问题引起广泛关注。这一现象的主要原因之一是由于人工智能工作负载的不断增加,人工智能GPU和处理器的迅速发展,以及其他硬件需求的提高。在此过程中,人工智能GPU功耗的飙升引人注目,例如,2022

近年来,人工智能数据中心的能耗问题引起广泛关注。这一现象的主要原因之一是由于人工智能工作负载的不断增加,人工智能GPU和处理器的迅速发展,以及其他硬件需求的提高。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

在此过程中,人工智能GPU功耗的飙升引人注目,例如,2022年的H100功耗高达700W,相较于Nvidia 2020年的A100,增加了近一倍。AI服务器不仅运行高功耗的GPU,还需要处理电力的CPU和网卡。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

AI工作负载,尤其是与训练相关的负载,对计算资源有巨大需求,包括配备AI GPU、专用ASIC或CPU的服务器。人工智能集群的规模取决于模型的复杂性和规模,对功耗起着主导作用。更庞大的人工智能模型需要更多的GPU,从而增加了总体能源需求。例如,一个拥有22,000个H100 GPU的集群使用700个机架,总密度为80 kW,需要约31兆瓦的电力,不包括冷却等基础设施需求。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

这些集群和GPU通常在整个训练过程中几乎满负荷运行,确保平均能耗几乎与峰值功耗相同。机架密度在30kW到100kW之间,具体取决于GPU的数量和型号。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

网络延迟在人工智能数据中心的功耗中也起着至关重要的作用。支持分布式训练过程中强大GPU所需的高速数据通信,对复杂的网络基础设施至关重要。对高速网络电缆和基础设施的需求进一步增加了总体能耗。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

考虑到人工智能工作负载对ASIC、GPU、CPU、网卡和SSD的高耗电需求,冷却成为一项严峻挑战。高机架密度和计算中产生的巨大热量使得有效的冷却解决方案至关重要。然而,空气和液体冷却方法的高成本也对用于人工智能工作负载的数据中心的功耗产生重大影响。cPK28资讯网——每日最新资讯28at.com


cPK28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-27-34391-0.htmlAI GPU 变得更加“饥饿”:功耗之谜与挑战

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 印度平板电脑出货量Q3环比增长41%

下一篇: 晶片业迎DDR5时代,厂商迎战记忆体需求潮

标签:
  • 热门焦点
Top