近年来,人工智能数据中心的能耗问题引起广泛关注。这一现象的主要原因之一是由于人工智能工作负载的不断增加,人工智能GPU和处理器的迅速发展,以及其他硬件需求的提高。
在此过程中,人工智能GPU功耗的飙升引人注目,例如,2022年的H100功耗高达700W,相较于Nvidia 2020年的A100,增加了近一倍。AI服务器不仅运行高功耗的GPU,还需要处理电力的CPU和网卡。
AI工作负载,尤其是与训练相关的负载,对计算资源有巨大需求,包括配备AI GPU、专用ASIC或CPU的服务器。人工智能集群的规模取决于模型的复杂性和规模,对功耗起着主导作用。更庞大的人工智能模型需要更多的GPU,从而增加了总体能源需求。例如,一个拥有22,000个H100 GPU的集群使用700个机架,总密度为80 kW,需要约31兆瓦的电力,不包括冷却等基础设施需求。
这些集群和GPU通常在整个训练过程中几乎满负荷运行,确保平均能耗几乎与峰值功耗相同。机架密度在30kW到100kW之间,具体取决于GPU的数量和型号。
网络延迟在人工智能数据中心的功耗中也起着至关重要的作用。支持分布式训练过程中强大GPU所需的高速数据通信,对复杂的网络基础设施至关重要。对高速网络电缆和基础设施的需求进一步增加了总体能耗。
考虑到人工智能工作负载对ASIC、GPU、CPU、网卡和SSD的高耗电需求,冷却成为一项严峻挑战。高机架密度和计算中产生的巨大热量使得有效的冷却解决方案至关重要。然而,空气和液体冷却方法的高成本也对用于人工智能工作负载的数据中心的功耗产生重大影响。
本文链接:http://www.28at.com/showinfo-27-34391-0.htmlAI GPU 变得更加“饥饿”:功耗之谜与挑战
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com
上一篇: 印度平板电脑出货量Q3环比增长41%