当前位置:首页 > 科技  > 芯片

英特尔展示全新处理器:1TB/s硅光互连!8核528线程!

来源: 责编: 时间:2023-09-04 10:16:18 228观看
导读近日,在美国加利福尼亚举行的Hot CHIPS会议上,英特尔展示了一款代号为“Piuma”的具有1TB/s硅光子互连的8核528线程处理器,旨在用于处理最大的分析工作负载。7nm工艺8核心528线程据介绍,Piuma芯片基于台积电7nm FinFET工

近日,在美国加利福尼亚举行的Hot CHIPS会议上,英特尔展示了一款代号为“Piuma”的具有1TB/s硅光子互连的8核528线程处理器,旨在用于处理最大的分析工作负载。T7T28资讯网——每日最新资讯28at.com

7nm工艺8核心528线程
T7T28资讯网——每日最新资讯28at.com

据介绍,Piuma芯片基于台积电7nm FinFET工艺制造(如果你不知道的话,英特尔在台积电制造了很多非CPU产品,而且已经有很多年了),它有八个核,每个核具有66个线程,总共528线程,晶体管数量超过276亿个。T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

△芯片中心的一个重要部分专门用于路由器,这些路由器控制从共封装光学器件流入的数据流T7T28资讯网——每日最新资讯28at.com

需要指出的是,该芯片并不是基于x86架构的,它是专门为DARPA(美国国防高级研究计划局的分层身份验证漏洞(HIVE)程序使用自定义RISC架构构建的。美国的这项军事举措旨在开发一种图形分析处理器,该处理器能够以比传统计算架构快100倍的速度处理流式数据,同时功耗更低。虽然这对DARPA来说可能是一件奇怪的事情,但该政府机构认为大规模图形分析在基础设施监控和网络安全方面有应用。T7T28资讯网——每日最新资讯28at.com

英特尔首席工程师Jason Howard在他的Hot Chips演示中指出的应用例子是社交网络,它可以运行图形分析工作负载来了解成员之间的联系。T7T28资讯网——每日最新资讯28at.com

这项创建大规模并行图形处理和互连芯片项目时间起源于2017年,英特尔被选为制造 HIVE 处理器的供应商,麻省理工学院的林肯实验室和亚马逊网络服务被选为基于此类处理器的系统创建和托管万亿边图形数据集以供分析。T7T28资讯网——每日最新资讯28at.com

虽然英特尔曾在2019和2022年对于“Piuma”处理器进行过一些介绍,但是在本周的Hot CHIPS大会上,英特尔首席工程师Jason Howard进一步详解了Piuma处理器和系统,其中包括英特尔与 Ayar Labs 合作创建的光子互连技术,用于将大量处理器连接在一起。T7T28资讯网——每日最新资讯28at.com

在2012年,超级计算机制造商Cary推出的XMT系列就是一个巨大的共享内存线程的怪物,非常适合图形分析,它拥有多达 8,192 个处理器,每个处理器有 128 个以 500 MHz 运行的线程,插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部与定制的“SeaStar2+”环面互连捆绑在一起,该互连提供 105 万个线程和 512 TB 共享主内存,供图形发挥作用。就 Linux 系统而言,这看起来就像一个单一的 CPU。T7T28资讯网——每日最新资讯28at.com

The nextplatform认为,“Piuma”处理器就像是再次将旧的东西变成新的,虽然处理器本身比较普通,但其使用的硅光子互连技术更好,想必性价比也是如此。也许英特尔会将这个Piuma系统商业化,并真正改变一切。T7T28资讯网——每日最新资讯28at.com

全新的内存架构设计


Jason Howard表示,当英特尔开始设计“Piuma”处理器时,从事 HIVE 项目的研究人员意识到图形处理不仅是大规模并行,这意味着可能有一些方法可以利用这种并行性来提高图形分析的性能。当在标准 X86 处理器上运行时,图形数据库的缓存行利用率非常低,在图形数据库运行的 80% 以上的时间里,72 字节缓存行中只有 8 字节或更少被使用。指令流中的大量分支给 CPU 管道带来了压力,而内存子系统也因依赖负载的长链而承受了很大的压力,这对 CPU 上的缓存造成了很大的影响。

T7T28资讯网——每日最新资讯28at.com

Piuma芯片有四个管道,每个管道有 16 个线程(称为 MTP),还有两个管道,每个管道有一个线程(称为 STP),其性能是MTP中一个线程的8倍。处理核心基于定制的RISC指令集,但是并未明确具体情况。T7T28资讯网——每日最新资讯28at.com

Jason Howard在他的Hot Chips演示中解释道:“所有的管道都使用自定义ISA,它类似于RISC,是一个固定的长度。” “每个管道都有32个可用的物理寄存器。我们这样做是为了方便您在任何管道之间迁移计算线程。因此,也许我开始在一个多线程管道上执行,如果我发现它花费了太长时间,或者可能是最后一个可用的线程,我可以快速迁移到我的单线程管道上,以获得更好的性能。T7T28资讯网——每日最新资讯28at.com

STP 和 MTP 单元通过交叉开关连接,并具有组合的 192 KB L1 指令和 L1 数据缓存,并且它们链接到比 L2 缓存更简单的共享 4 MB 暂存器 SRAM 存储器。T7T28资讯网——每日最新资讯28at.com

每个Piuma芯片都有 8 个活动核心,每个核心都有自己定制的 DDR5 内存控制器,该控制器具有 8 字节访问粒度,而不是像普通 DDR5 内存控制器那样具有 72 字节访问粒度。每个插槽都有 32 GB 的定制 DDR5-4400 内存。T7T28资讯网——每日最新资讯28at.com

Jason Howard解释说,Piuma芯片所采用的新颖的内存架构,这是优化图形分析工作负载的一个重要内容。这些芯片与32GB DDR5-4400内存配对,通过允许8字节访问粒度的自定义内存控制器进行访问。根据Jason Howard的说法,这是有利的,因为“每当我们从内存中取出一条数据线时,我们都会尝试利用所有的数据线,而不是扔掉7/8的数据线。”T7T28资讯网——每日最新资讯28at.com

1TB/s硅光互连,可以连接超过10万个芯片T7T28资讯网——每日最新资讯28at.com

“Piuma”芯片被认为是英特尔首个直接网状光子结构的一部分,英特尔并没有使用铜线将多个芯片缝合在一起,而是使用了使用硅光子互连技术,使用了共封装光学器件(CPO)可以将数百甚至数千个芯片连接在一个低延迟、高带宽的网络中。T7T28资讯网——每日最新资讯28at.com

这是一个不错的想法,但无论如何,该芯片仍然是一个原型。英特尔的目标是开发可以扩展的技术,以支持最大的图形分析工作负载。T7T28资讯网——每日最新资讯28at.com


△围绕中央计算芯片的四个小芯片为英特尔这个原型芯片提供1TB/s的光学带宽T7T28资讯网——每日最新资讯28at.com

虽然该芯片最初看起来是一个标准处理器,它甚至有一个相当典型的BGA接口,与Xeon-D芯片上的接口没有什么不同,但I/O芯片的大部分数据都是使用与Ayar Labs合作开发的硅光子芯片进行光学传输的。T7T28资讯网——每日最新资讯28at.com

中央处理器周围的四个小芯片将进出处理器的电信号转换为32根单模光纤携带的光信号。正如我们所理解的,这些光纤束中的16根用于传输数据,另16根用于接收数据。T7T28资讯网——每日最新资讯28at.com

根据英特尔的说法,每根光纤都可以在芯片内外以32GB/s的速度传输数据,总带宽为1TB/s。该光纤网络可以将超过100000“Piuma”芯片配置联网在一起,任何一个芯片都可以以非常低的延迟与另一个芯片通信。T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

△进出英特尔原型处理器的数据都是通过光学传输的T7T28资讯网——每日最新资讯28at.com

英特尔还必须找到一种方法来处理进出计算芯片的巨大数据流,理论上需要高达1TB/s。根据Jason Howard的说法,这一要求使得Piuma芯片内部大量区块专用于路由器的原因。T7T28资讯网——每日最新资讯28at.com

具体来说,Piuma芯片的每个核心都有一对路由器,将 2D 网格中的核心相互链接、链接到八个内存控制器以及四个高速高级接口总线 (AIB) 端口。AIB 是英特尔于 2018 年推出的用于互连小芯片的免版税 PHY。Ayar Labs 的芯片有 32 个光学 I/O 端口,每个 AIB 8 个,每个方向可提供 32 GB/秒的带宽。T7T28资讯网——每日最新资讯28at.com

以下是在 PIUMA 封装上实现 2D 网格的片上路由器的深入分析:


T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

这是一个十端口直通路由器。2D 网格以 1 GHz 运行,需要四个周期来遍历路由器。它有 10 个虚拟通道和四种不同的消息类别,Jason Howard表示这可以避免网格上的任何死锁,并且为路由器内的每个链路提供 64 GB/秒的速度。T7T28资讯网——每日最新资讯28at.com

Piuma芯片上的路由器和核心封装比想象的要复杂一些,如下图:T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

它更像是芯片上有 16 个核心/路由器单元,其中只有 8 个核心被激活,因为芯片上网格需要两倍数量的路由器来馈入 AIB,而 AIB 又馈入 Ayar Labs 芯片光子学。硅光子链路仅用作物理层,它们专门用于扩展多个插槽之间的片上网络。
T7T28资讯网——每日最新资讯28at.com

比如,由 16 个使用硅光子链路的Piuma芯片组成的网络可以以全对全配置的 4×4 网格连接在一起。每个Piuma芯片在标称电压和工作负载下消耗约 75瓦,这意味着它消耗约1200瓦。考虑到一个具有112个内核和224个线程的单双插槽Intel Sapphire Rapids系统在负载下可以很容易地消耗那么多功率,Piuma芯片的功耗表现还不错。T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

Piuma片具有 1 TB/秒的光学互连能力,可以将多131,072芯片连接在一起,形成一个大型共享内存的图形级计算机。路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,而不是直接连接到机架内的所有拓扑,每个机架内16个Piuma芯片
T7T28资讯网——每日最新资讯28at.com

16 个Piuma芯片,则意味着拥有 128 个内核、8,448 个线程和 512 GB 内存。HyperX 网络的第一级拥有 256 个芯片,包含32,768 个核心、270,336 个线程和 1 TB 内存。升级到 HyperX 网络的二级,则可以构建一个包含 16,384 个芯片,包含210 万个核心、1730 万个线程和 64 TB 共享内存的 Piuma芯片集群。最后,在 HyperX 网络的第三级,则可以扩展到 131,072 个芯片,拥有1680 万个核心、1.384 亿个线程和 512 PB 共享内存。T7T28资讯网——每日最新资讯28at.com

每个Piuma芯片节点通过单模光纤连接在一起,有趣的是,Piuma网络设计所实现的带宽(每方向 16 GB/秒)仅具有理论设计点的带宽。但即便如此,这仍然是一个巨大的带宽怪兽,理论上整个 HyperX 网络的单向平分带宽为 16 PB/秒。T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

挑战依然存在T7T28资讯网——每日最新资讯28at.com

英特尔此次成功展示Piuma芯片,并不是说其在光学器件研发方面没有遇到挑战。Jason Howard说,在测试中,Piuma芯片实际的硅光互连速率只达到了预计(1TB/s)的一半,并且光纤还经常出现故障。T7T28资讯网——每日最新资讯28at.com

Jason Howard说:“一旦我们把所有东西都调好并工作起来,就会出现很多纤维附着问题,因为这些都是脆性纤维,它们就会脱落。” “我们还看到,当我们对整个封装进行回流工艺时,由于热结果,我们会遇到光学问题,最终会产生糟糕的光学成品率。”T7T28资讯网——每日最新资讯28at.com

Jason Howard解释说,为了克服这些挑战,英特尔必须与合作伙伴合作开发具有较低热障的新材料。T7T28资讯网——每日最新资讯28at.com

到目前为止,英特尔已经构建了两块主板,每块板都配有一个Piuma芯片,并将它们互连起来以运行测试并向 DARPA 证明其有效。T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

现在的问题是,这样一台机器的大规模成本是多少?嗯,以每个节点 750 美元计算,这根本不算什么,对于一个具有 4,096 个Piuma芯片的 HyperX 一级系统来说,大概需要 310 万美元;对于一个具有 262,144 个Piuma芯片的HyperX 二级系统来说,成本接近 2 亿美元;而对于一个具有210万个Piuma芯片的HyperX 三级系统来说,成本将达到15.7亿美元。T7T28资讯网——每日最新资讯28at.com

英特尔设想,Piuma芯片可以构建到包含超过10万个芯片的网格中,即使是最大的图形分析工作负载,也可以实现近乎线性的性能扩展。然而,目前这还只是个梦想,因为英特尔迄今为止只测试了两个连接在其结构上的芯片。T7T28资讯网——每日最新资讯28at.com

Jason Howard解释说,英特尔是否会将该设计商业化将取决于资金。“如果有客户可以给我们资金支持,我们非常欢迎建造这些东西。”T7T28资讯网——每日最新资讯28at.com

编辑:芯智讯-浪客剑来源:综合自The Register、nextplatformT7T28资讯网——每日最新资讯28at.com

往期精彩文章

荷兰新规今日生效!ASML:年底前仍可向中国出口高端DUV光刻机!
T7T28资讯网——每日最新资讯28at.com

半年亏损5.45亿元,研发人员减少225人!寒武纪:与英伟达相比存在竞争劣势!
T7T28资讯网——每日最新资讯28at.com

华为上半年净利暴涨218%!得益于出售荣耀和超聚变的尾款支付及股权投资收益?
T7T28资讯网——每日最新资讯28at.com

谷歌推出第五代TPU:训练性能提高2倍,推理性能提升2.5倍,成本降低50%!T7T28资讯网——每日最新资讯28at.com

中芯宁波:黄河、王瀛、陈宏等人涉嫌严重违法犯罪!
T7T28资讯网——每日最新资讯28at.com

麒麟回归?华为Mate 60 Pro爆卖!
T7T28资讯网——每日最新资讯28at.com

车规级MCU国产替代率仅1%,RISC-V架构带来新机遇!T7T28资讯网——每日最新资讯28at.com

国内半导体设备进口额创新高!中微尹志尧:公司进口受限零部件明年100%替代!T7T28资讯网——每日最新资讯28at.com

ODM大厂龙旗科技IPO成功过会:三年营收超700亿,小米是大股东!T7T28资讯网——每日最新资讯28at.com

英伟达Q2营收暴涨101%!净利暴涨843%!黄仁勋:一个新的计算时代已经开启!T7T28资讯网——每日最新资讯28at.com

无需EUV也能实现尖端制程,定向自组装技术再度兴起!
T7T28资讯网——每日最新资讯28at.com

长存被制裁一年后,三星、SK海力士宣布3D NAND将迈入300层!T7T28资讯网——每日最新资讯28at.com

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116T7T28资讯网——每日最新资讯28at.com

T7T28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-27-7511-0.html英特尔展示全新处理器:1TB/s硅光互连!8核528线程!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 直播预告 | 英飞凌发布新一代PFC+HFB二合一控制器XDPS2222

下一篇: 电科院“内斗”不断,董事长、高管齐辞职

标签:
  • 热门焦点
  • K60 Pro官方停产 第三方瞬间涨价

    K60 Pro官方停产 第三方瞬间涨价

    虽然没有官方宣布,但Redmi的一些高管也已经透露了,Redmi K60 Pro已经停产且不会补货,这一切都是为了即将到来的K60 Ultra铺路,属于厂家的正常操作。但有意思的是该机在停产之后
  • MIX Fold3包装盒泄露 新机本月登场

    MIX Fold3包装盒泄露 新机本月登场

    小米的全新折叠屏旗舰MIX Fold3将于本月发布,近日该机的真机包装盒在网上泄露。从图上来看,新的MIX Fold3包装盒在外观设计方面延续了之前的方案,变化不大,这也是目前小米旗舰
  • K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    Redmi的后性能时代战略发布会今天下午如期举办,在本次发布会上,Redmi公布了多项关于和联发科的深度合作,以及新机K60 Ultra在软件和硬件方面的特性,例如:“K60 至尊版,双芯旗舰
  • 小米官宣:2023年上半年出货量中国第一!

    小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • Rust中的高吞吐量流处理

    Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 量化指标是与非:挽救被量化指标扼杀的技术团队

    量化指标是与非:挽救被量化指标扼杀的技术团队

    作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享,更多精彩内容及现场PPT,请关注51CTO技术栈公众号,发消息【WOT2023PPT】即可直接领取
  • 东方甄选单飞:有些鸟注定是关不住的

    东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
Top