当前位置:首页 > 科技  > 网络

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”

来源: 责编: 时间:2023-09-22 20:10:36 572观看
导读 AI时代根本的是什么?是算力。随着AI模型、训练数据规模的不断膨胀,对于算力的渴求也是空前高涨,没有尽头。强大的AI算力可以来自CPU,可以来自GPU,可以来自FPGA,可以来自ASIC,各有各的优势,其中的王者毋庸置疑就是GP

AI时代根本的是什么?是算力。F7Q28资讯网——每日最新资讯28at.com

随着AI模型、训练数据规模的不断膨胀,对于算力的渴求也是空前高涨,没有尽头。F7Q28资讯网——每日最新资讯28at.com

强大的AI算力可以来自CPU,可以来自GPU,可以来自FPGA,可以来自ASIC,各有各的优势,其中的王者毋庸置疑就是GPU加速器。F7Q28资讯网——每日最新资讯28at.com

如今的AI GPU加速器市场,呈现着明显的“一家独大、两家追赶”的态势:NVIDIA有着无可比拟的市场地位,尤其是软件生态遥遥领先;AMD、Intel都有各自的独特方案,也都有了不俗的成果。F7Q28资讯网——每日最新资讯28at.com

NVIDIA的大家都比较熟了,Intel的才刚刚起步,今天我们重点聊聊AMD Instinct系列加速器,看看它能不能真正挑战NVIDIA。F7Q28资讯网——每日最新资讯28at.com

毕竟,任何市场领域一家独大,都不是什么好事儿,都需要你来我往的竞争,才是对用户利益、对行业发展为有利的。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

AMD Instinct很多人可能不太熟悉,但其实历史也很优秀了,可以追溯到2017年。F7Q28资讯网——每日最新资讯28at.com

不过那时候,它还叫Radeon Instinct,基础架构也是和Radeon游戏显卡通用的,包括Polaris、GCN、Vega,一直到2020年的RDNA都用过。F7Q28资讯网——每日最新资讯28at.com

这么做的好处是开发成本低、推进速度快,但缺点也很明显,就是在计算方面缺乏针对性和高效率。F7Q28资讯网——每日最新资讯28at.com

2020年诞生的Instinct MI100,成为这条产品线的一个转折点,因为它首次采用了专门设计的CNDA计算架构,和RDNA图形架构彻底分道扬镳,同时去掉了名字中的Radeon字样,踏上了新的征程。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

2021年的Instinct MI200系列又达到了全新的高度,这是AMD第一款ExaScale百亿亿次计算性能级别的加速器产品,号称在同类产品中拥有世界上快的HPC性能、AI性能。F7Q28资讯网——每日最新资讯28at.com

它升级到了第二代CDNA 2架构,首创MCM多芯整合封装,拥有Infinity Fabric高速互连通道、矩阵核心、128GB HBM2e高带宽内存等等,性能异常强大,浮点性能约48万亿次每秒。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

该系列包括MI250X、MI250、MI210三款型号,在诸多高性能计算、机器学习、人工智能、超级计算机中都有普遍应用。F7Q28资讯网——每日最新资讯28at.com

尤其是顶级满血的MI250X战绩彪炳,目前公开性能世界第一、已经三连冠的超算“Frontier”,就是基于它打造的,大性能高达119.4亿亿次浮点每秒,是第二名的多达2.7倍,峰值性能更是168亿亿次浮点每秒,是第二名的3倍还多!F7Q28资讯网——每日最新资讯28at.com

第三名的“LUMI”同样是采用了MI250X,大性能30.9亿亿次浮点每秒,峰值性能42.9亿亿次浮点每秒,相当于第二名的七八成。F7Q28资讯网——每日最新资讯28at.com

值得一提的是,韩国电信运营商Kt还使用AMD Instinct平台运行了该国第一个大语言模型,支持110亿参数。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

新一代的Instinct MI300系列再次实现跨越,并开辟了全新的方向,有了两款不同的产品。F7Q28资讯网——每日最新资讯28at.com

其中,MI300A是全球首款面向HPC、AI的APU加速器,基于AMD的成熟经验,开创了CPU、GPU合体加速的先河。F7Q28资讯网——每日最新资讯28at.com

它采用了先进的Chiplet芯粒设计,一共有多达13颗小芯片,其中计算部分9颗,都是5nm工艺制造,基底和扩展部分4颗,都是6nm工艺制造,集成多达1460亿个晶体管。F7Q28资讯网——每日最新资讯28at.com

CPU部分为Zen 4架构,三组CCD共24个核心,GPU为新的CDNA3架构,还有128GB大容量的HBM3高带宽内存,可以为CPU、GPU所共享。F7Q28资讯网——每日最新资讯28at.com

MI300A使用了标准的Socket独立封装,因此不再需要单独的CPU处理器,自己就能组建一整套加速平台,大大简化系统设计。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

MI300X则是纯GPU加速器,相当于把MI300A里的CPU模块也替换成GPU,同时将HBM3内存容量增加到史无前例的192GB,带宽达到惊人的5.2TB/s。F7Q28资讯网——每日最新资讯28at.com

整体集成的晶体管数量,也达到了同样史无前例的1530亿个。F7Q28资讯网——每日最新资讯28at.com

作为对比,NVIDIA新的H100加速器也只有800亿个晶体管,只有MI300X的一半多点,不在一个层级上。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

为方便客户部署,AMD全新设计了Instinct平台,基于行业标准的OCP计算标准,单系统可集成多八块OAM形态的MI300X,HBM3内存总容量达1.5TB。F7Q28资讯网——每日最新资讯28at.com

Instinct MI300系列也已经开始投入商用,比如美国劳伦斯利弗莫尔实验室的新一代超级计算机EI Capitan,已开始安装MI300A加速器,搭档第四代AMD EPYC处理器。F7Q28资讯网——每日最新资讯28at.com

它将在明年上线,预计性能超过200亿亿次浮点计算每秒,也就是可以超越当今第一的Frontier。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

MI300X的强劲性能和超高能效,使之可以轻松应对当今AI对强算力的需求,搞定各种几百上千亿参数的大语言模型,Falcon、GPT-3、PaLM 2、PaLM等等都不在话下。F7Q28资讯网——每日最新资讯28at.com

甚至,MI300X单卡就能运行800亿参数的大语言模型,尤其是得益于超大容量的HBM3内存,大模型可以完全在HBM3内存中运行,无需动用系统内存,从而省去数据传输与拷贝,大大降低延迟、提升性能。F7Q28资讯网——每日最新资讯28at.com

相比于 NVIDIA 80GB HBM内存加速器,运行同样参数规模模型,MI300X所需要的GPU数量也更少,自然成本更低。F7Q28资讯网——每日最新资讯28at.com

更关键的是,NVIDIA H100/A100加速器过于火爆,价格一路飙升,比如应用多的H100目前已经要到4.5万美元一块,相当于30多万人民币,新一代的A100也需要十几万。F7Q28资讯网——每日最新资讯28at.com

甚至,就算你舍得花钱,也不一定买到。负责代工的台积电也承认,H100/A100的紧缺状况还要持续大约一年半之久。F7Q28资讯网——每日最新资讯28at.com

相比之下,AMD的一贯优良传统恰恰就是高性价比,正好可以给客户提供更丰富的选择空间,而不是吊在一棵树上。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

当然了,作为AI加速器,不但需要硬件设计强大,更需要足够高效的开发平台、足够优化的软件和应用适配,才能彻底释放潜力。F7Q28资讯网——每日最新资讯28at.com

NVIDIA在这方面无疑做得相当透彻,这也是其赢得开发者和市场的一大关键。F7Q28资讯网——每日最新资讯28at.com

AMD ROCm开发平台同样历史悠久,只是在技术特性、生态适配上一直有待进一步拓展,而今在AI的驱动下正在努力追赶。F7Q28资讯网——每日最新资讯28at.com

比如新一代ROCm 5.x版本,针对HPC、AI做了全方位优化,支持各种流行的AI模型、框架和算法,诸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便开发者根据自己的实际需要选择,灵活满足不同场景。F7Q28资讯网——每日最新资讯28at.com

值得一提的是,现在部署MI210,AMD还会提供软件层面的搭建支持,让客户的安装、使用更加简单、省心。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

说到这里顺带一提,除了高性能计算GPU方面,AMD还正在不断释放消费级游戏GPU的AI潜力,比如大火的文生图应用Stable Diffusion,已经可以在Windows系统下跑在AMD Radeon显卡上。F7Q28资讯网——每日最新资讯28at.com

如今,你可以在Automatic1111(Xformer)下使用微软的Microsoft Olive(一个可用于转换、优化、量化和自动调整模型以通过DirectML等ONNX运行时执行提供程序获得佳推理性能的Python工具),来启用Stable Diffusion,从而在Windows系统上通过Microsoft DirectML,获得显著的加速。F7Q28资讯网——每日最新资讯28at.com

AMD也一直在与微软合作优化AMD硬件上的Olive路径,通过微软DirectML API,以及用于DirectML的AMD用户模式驱动程序的ML层加速,从而允许用户访问AMD GPU的AI功能和性能。F7Q28资讯网——每日最新资讯28at.com

按照AMD实测的数据,RX 7900 XTX在默认PyTorch路径上运行,每秒可提供1.87次迭代,而换到Microsoft Olive的优化模型上运行,每秒可提供18.59次迭代,也就是性能提升多达9.9倍!F7Q28资讯网——每日最新资讯28at.com

相信像这样的生态适配和合作,未来势必也会越来越多地体现在AMD Instinct上。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

后,AMD Instinct还有一个任何对手都无法匹及的优势,那就可以是背靠完整的AI产品矩阵,提供一整套一站式解决方案。F7Q28资讯网——每日最新资讯28at.com

尤其是高性能的EPYC处理器,经过几年的迭代,计算性能已经遥遥领先,新一代EPYC 9004系列已经升级到Zen 4架构、96核心192线程、12通道DDR5内存、160条PCIe 5.0总线,还衍生出了Zen 4c高能效核心、3D V-Cache 1GB+缓存等不同版本。F7Q28资讯网——每日最新资讯28at.com

事实上,当今的众多高性能计算平台尤其是超级计算机,都部署了AMD EPYC、AMD Instinct这一对黄金组合,效果拔群,在各种科学与学术研究中贡献力量。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

总的来说,在这个AI蓬勃发展的时代,对于强大算力的需求只会越发高涨,其中蕴含着前所未有的机遇。F7Q28资讯网——每日最新资讯28at.com

NVIDIA的强大和领先毋庸置疑,软硬件结合更是做得十分到位,但一花独放不是春、百花齐放春满园,我们同时也非常希望AMD、Intel能把握住这个风口,拿出同样优秀的方案,让开发者和用户受益。F7Q28资讯网——每日最新资讯28at.com

AMD更是尤为值得期待。Instinct系列加速器发展多年,屡屡实现创新突破,性能上绝对不是问题,能在超算的世界里脱颖而出就是明证,只要在开发和生态上多下一番功夫,势必更受欢迎。F7Q28资讯网——每日最新资讯28at.com

同时,AMD还有着全套解决方案的支撑,特别是强大的EPYC处理器现在让Intel都不得不仰视,可以和Instinct珠联璧合,再加上一贯以来的高性价比,前途必然是相当光明的。F7Q28资讯网——每日最新资讯28at.com

“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”F7Q28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-11145-0.html“饥渴”的AI时代:AMD Instinct加速器面前是一条“星光大道”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 孙女买衣服 爷爷边说不要边报体重:收到后很开心

下一篇: 阿里六大业务集团IPO第一枪即将打响 菜鸟计划正式交表: 官方回应

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 共享单车的故事讲到哪了?

    来源丨海克财经与共享充电宝相差不多,共享单车已很久没有被国内热点新闻关照到了。除了一再涨价和用户直呼用不起了。近日多家媒体再发报道称,成都、天津、郑州等地多个共享单
  • OPPO K11搭载高性能石墨散热系统:旗舰同款 性能凉爽释放

    日前OPPO官方宣布,将于7月25日14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼
  • 苹果MacBook Pro 2021测试:仍不支持平滑滚动

    据10月30日9to5 Mac 消息报道,苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价,亮点包括行业领先的性能,令人印象深刻的电池续航,精美丰
Top