当前位置:首页 > 科技  > 软件

生成式 AI 算力新台阶,第五代至强可扩展处理器详解

来源: 责编: 时间:2024-03-21 09:43:54 110观看
导读 如今 AI 的生意越做越大,从出圈爆火,到千行百业都开始拥抱 AI,越来越多的企业,都会将 AI 导入到他们的生意模式当中。预计到 2026 年有超过 3000 亿美金将投入到生成式 AI 当中,这其中包括硬件、软件、解决方案等

如今 AI 的生意越做越大,从出圈爆火,到千行百业都开始拥抱 AI,越来越多的企业,都会将 AI 导入到他们的生意模式当中。预计到 2026 年有超过 3000 亿美金将投入到生成式 AI 当中,这其中包括硬件、软件、解决方案等。50% 以上的边缘应用也会采用 AI 技术。到 2028 年有 80% 以上的 PC 都会转换成 AI PC,通过 AI 可以提升大家在 PC 上的生产力。还有 80% 以上的公司,也会在 2026 年之前会导入某种程度的生成式 AI 以提高企业生产力。2ec28资讯网——每日最新资讯28at.com

各行各业都在积极的拥抱 AI,这离不开强大的算力支持,英特尔在去年 AI 风头正劲的时候推出了第五代英特尔至强可扩展处理器,为云端 AI 能力带来了全新的体验。2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

第五代至强最多拥有 64 个核,并引入了诸多 AI 特性,如 AMX、AVX-512 指令集等,并通过性能的提升,对生成式 AI 应用带来更快的体验。第五代至强可扩展处理器内存达 5600MT/s,三级缓存进一步提升,加速处理器的数据交换。在软件生态上英特尔也进行了很大投入,目前,英特尔上传了 300 个以上的深度学习模型到社区,也支持了 50 个以上的基于机器学习的、且基于第五代至强优化过的模型,这些开发者都可以调用。针对开发者,英特尔同步更新了其 AI 开发软件,可以在第五代至强上的应用做到较大优化,针对主流大模型、生成式 AI 模型的框架,如 PyTorch 和 TensorFlow,可以无缝拓展至英特尔至强可扩展处理器上。2ec28资讯网——每日最新资讯28at.com

针对第五代至强可扩展处理器的诸多变化,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示,“基于硬件和软件的优化,第五代至强和第四代至强相比,在 AI 训练、实时推理、批量推理上,基于不同的算法,都可以看到不同性能的提升,最高可提升 40%。”2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

庄秉翰表示,“对新兴的,尤其是基于云原生的设计,我们提供能效核,每瓦性能可以做到相对极致,而且因为它的核比较精简,可以放更多高密度的核数到每一款的 CPU 和服务器,所以它会支持面向云的高密度超高能效的运算进行能效的优化。在近期对于产品淘汰换新的要求中,有一个重要考量因素就是能效比,而我们在今年推出的能效核,也是符合国家对设备淘汰换新的要求。”2ec28资讯网——每日最新资讯28at.com

‎第五代至强大调整,性能更强功耗控制更好

第五代英特尔至强可扩展处理器带来了五项升级,在制程工艺方面,第五代至强采用 Intel 7 制程,从第四代至强到第五代至强,英特尔也关键的技术指标做了改进,特别是在系统的漏电流控制和动态电容方面,这两方面的指标都对整个晶体管的性能表现有比较大的影响。通过这些调整,整体上第五代至强在同等功耗下的频率可以提升 3%。2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

芯片布局方面,通过把四片芯片改成两片芯片的设计,可以更好的对芯片的面积进行控制。通过 MDF 和 SCF 连接,在第五代至强可进一步实现芯片之间的高效互连。2ec28资讯网——每日最新资讯28at.com

在关键表现上,第五代至强做了如下调整:2ec28资讯网——每日最新资讯28at.com

升级到 Raptor Cove 核心。2ec28资讯网——每日最新资讯28at.com

核心数增加,从最多的 60 核升级到 64 核。2ec28资讯网——每日最新资讯28at.com

LLC 大小从 1.875MB 增加到 5MB。2ec28资讯网——每日最新资讯28at.com

DDR 速度从 4800MT/s提升到了 5600MT/s。2ec28资讯网——每日最新资讯28at.com

UPI 速度从 16GT/s提升到 20GT/s。2ec28资讯网——每日最新资讯28at.com

SoC 芯片拓扑结构更改,4 芯片封装改为 2 芯片封装。2ec28资讯网——每日最新资讯28at.com

待机功耗降低。2ec28资讯网——每日最新资讯28at.com

待机功耗下降是通过英特尔全集成供电模块(FIVR),实现不同场景下节电优化。在性能能效方面,与第四代至强相比,第五代至强有两个数据提升比较明显,一个是常规的整数计算,第五代至强 SPEC integer 和整数相关的一系列的性能评价指标有 21% 的提升。针对 AI 负载,性能提升更多达到 42%。2ec28资讯网——每日最新资讯28at.com

为了达到这一性能提升,英特尔引入了新的 Raptor cove 核心并将四芯片封装改成两个芯片,这样可以减少芯片间的功耗,把更多功耗放在处理器的性能提升上。另外,DDR 的频率以及 LLC 的提升,这些都是和内存带宽相关的业务,有更好的性能表现。2ec28资讯网——每日最新资讯28at.com

在三级缓存上,第五代至强每个模块的三级缓存容量达到了 5MB,所以这款芯片有高达 320MB 缓存,如果数据集不是很大,大部分的数据都可以放在 LLC 缓存当中,大量减少对内存的访问。而在数据停留在缓存里面和到内存去访问,能带来的性能收益是比较大的。第五代至强在设计上做到同频同延迟下密度提升 30%。2ec28资讯网——每日最新资讯28at.com

内存方面,第五代至强 DDR 速度从 4800MT/s提升到 5600MT/s,英特尔做了很多优化,包括一些 MIM 的内存、基板上走线的提升以及片上的低噪声的供电措施等,还通过 DFE 功能尽可能的减少码间干扰(ISI)。2ec28资讯网——每日最新资讯28at.com

软件解决方案发展迅速,充分利用第五代至强性能

如今数字化又有了新的需求,英特尔通过新的计算范式支持新的数字化需求。云计算是 AI 时代离不开的话题,AI 时代下,存在三个瓶颈,一是算力,二是数据,三是工程化能力。到了 AI 时代,数据中心的耗电量问题,也是摆在企业面前的一座大山。如何提升能效?英特尔的技术专家提出两种方式,一是为前端客户提供智能,二是自身的底层设施智能化。在过去的 10 年,英特尔致力于构建一个完备的生态,通过软、硬件结合帮助生态合作伙伴们充分挖掘和利用底层 CPU 能力。2ec28资讯网——每日最新资讯28at.com

第五代至强可扩展处理器在 AI 推理训练上最高提升了 14 倍,基础架构的存储能够达到 2.8 倍,网络边缘可以达到 3.2 倍,高性能计算能达到 3 倍,数据分析可以达到 3.7 倍,这些综合起来可以获得了多维度的提升,L3 缓存增加,受益最大的是数据库,AI 和大数据分析也会从 L3 的提升中受益。核数增加之后,“红利”最大的是科学计算和大数据。核之间 UPI 总线也会越来越快,所以核数多少对于 AI / 大数据比较重要。当然若是底层主频高了,内存带宽大了,4800MT/s提升至 5600MT/s了,那么大家都能获益。在 AI 当中,通过英特尔 AMX 加速器专门针对矩阵运算,性能便会大幅提升。2ec28资讯网——每日最新资讯28at.com

英特尔在第五代至强产品上充分挖掘 CPU 的能力,通过不同层次的深度挖掘,让 CPU 更适合 AI 场景,成为 AI 时代全能的大侠。2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

第五代至强可扩展处理器将持续保持至强平台性能的领先地位,与第四代至强可扩展处理器相比,其 AI 推理的高性能提升高达 42%,通用计算性能增益 21%。2ec28资讯网——每日最新资讯28at.com

英特尔拥有开放的生态,也帮助行业伙伴直接使用,并很好带动整个生态的发展。英特尔始终致力于在 CPU 上部署 AI,并基于 OpenVINO 对整个模型进行优化、量化。包括推荐、语音识别、图像识别、基因测序等,英特尔均做了大量的优化,尤其是推荐系统,其模型非常大,当 GPU 无法运行的时候,用 CPU 反而是主流的。因为 GPU 不够的时候,就意味着需要跨 GPU,或者说和 CPU 有频繁交互。那么,跟主存有频繁交互的时候,实际上使用 CPU 会更快。因此,对于推荐系统、大模型、稀疏矩阵等,用 CPU 效率更高。2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

对于通用的 AI 工作负载,英特尔采用 AMX 和 AVX-512 两个指令集,基于 OpenVINO 进行优化。在推理的过程中,指令集上可以进行切分,通过加速器定向加速某一部分,整个效果替代传统的基于 GPU 的 AI 模型。2ec28资讯网——每日最新资讯28at.com

2ec28资讯网——每日最新资讯28at.com

依靠第五代英特尔至强可扩展处理器的硬件特性包括对 AI 的支持及内存带宽和吞吐量的提升使得 AI 推理能力也得到了增强,对于最终企业客户而言带来了整体性能的提升。配合软件优化使得在 CPU 上进行大模型推理成为可能。CPU 在推理能力上可以与 GPU 媲美,通过 oneCCL 的加持,甚至可以支持 700 亿参数的模型推理,延迟在 100ms 以内。2ec28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-78151-0.html生成式 AI 算力新台阶,第五代至强可扩展处理器详解

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 金山软件 2023 年营收 85.3 亿元增长 12%,净利润 4.835 亿元扭亏为盈

下一篇: 友盟 + U-APP 首批适配 HarmonyOS NEXT,提供免费的统计分析工具

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 太卷!Redmi MAX 100英寸电视便宜了:12999元买Redmi史上最大屏

    太卷!Redmi MAX 100英寸电视便宜了:12999元买Redmi史上最大屏

    8月5日消息,从小米商城了解到,Redmi MAX 100英寸巨屏电视日前迎来官方优惠,到手价12999元,比发布价便宜了7000元,在大屏电视市场开卷。据了解,Redmi MAX 100
  • 线程通讯的三种方法!通俗易懂

    线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • Automa-通过连接块来自动化你的浏览器

    Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 慕岩炮轰抖音,百合网今何在?

    慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 半导体需求下滑 三星电子DS业务部门今年营业亏损预计超10万亿韩元

    半导体需求下滑 三星电子DS业务部门今年营业亏损预计超10万亿韩元

    7月17日消息,据外媒报道,去年下半年开始的半导体需求下滑,影响到了三星电子、SK海力士、英特尔等诸多厂商,营收明显下滑,部分厂商甚至出现了亏损。作为
Top