拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽动态-东方门窗网

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽动态

硬件闲聊来源：2023-06-15 06:17:30

2022年11月，AMD正式发布了代号“Genoa”(热那亚)的新一代数据中心处理器EPYC 9004系列，不但节奏上抢在了竞品之前，规格、性能更是碾压一般的存在。

5nm制造工艺、chiplet小芯片架构、Zen4 CPU架构、最多96核心192线程和384MB三级缓存、12通道6TB DDR5-4800内存、160条PCIe 5.0总线通道……

如此先进的存在，直接让竞品相形见绌，更进一步，Genoa EPYC 9004系列并非全部，只是AMD新一代数据中心处理器家族中的一员。

(资料图)

AMD官方早就预告了由Genoa衍生出来的另外三个分支，分别面向不同应用领域和工作负载，共同组成一个庞大的阵营。

其中，“Genoa-X”(热那亚-X)加入3D缓存，主打更高性能计算；

“Bergamo”(贝加莫)首次采用精简架构Zen4c，是AMD首款专门针对云原生计算设计的产品；

“Siena”(锡耶纳)也是Zen4c架构，服务于电信基础设施、边缘计算市场。

现在，Bergamo、Genoa-X终于来了，Siena也将在下半年跟上，轮番出击，势不可挡。

这里，我们先来看看EPYC 9704系列，基于特别设计的Zen4c架构。

Zen4c架构其实就是Zen4的精简版，可以说是一个小核、一个大核，一个注重高能效、一个追求极致性能。

但是不同于Intel混合架构中性能核、能效核在架构、规格上截然不同，AMD让两种核心架构保持了高度的一致性。

它们都基于同样的ISA指令集和IPC性能，几乎所有的微架构指标都一模一样，主要区别就是三级缓存，平均每核心的容量从4MB减半到2MB。

另外，AMD在消费级的锐龙处理器上未来也会引入“大小核”，但也是类似的理念，小核部分精简的基本只是缓存。

内部经过重新设计之后，包含二级缓存在内的单个Zen4c核心面积仅为2.48平方毫米，相比Zen4核心的3.84平方毫米，缩小了多达35.4％，从而可以大大提高核心密度。

其他诸如前端单元、非核心单元、执行单元、FPU浮点单元等模块也都缩小了40％上下。

单个CCD内的核心数量从8个翻番到16个，面积依然控制在72.7平方毫米，相比Zen4 CCD的66.3平方毫米只增加了9.7％。

单颗芯片的CCD总数从12个减少到8个，但是核心数量从最多96个(192线程)增加到最多128个(256线程)。

缓存方面，一级缓存不变还是每核心32KB指令缓存、32KB数据缓存，但因为核心数多了，总量从6MB增加到8MB。

二级缓存每个核心还是独享1MB，合计增加到最多128MB，相比Zen4 EPYC增加了32MB。

三级缓存还是每个CCD 32MB，不过从8个核心一组CCX共享全部32MB，改成了每8个核心一组CCX共享其中一半16MB，合计总量256MB，相比Zen4 EPYC少了128MB。

事实上，AMD完全可以继续在单颗芯片内放置12个CCD，那样将拥有恐怖的192核心384线程、128MB二级缓存、384MB三级缓存……

对比Zen4 EPYC 9004、Zen4c EPYC 9704两大系列的平台特性，可以看到二者的高度一致性，可以说除了核心数量、缓存容量之外，几乎一切都是通用的。

同样的5nm制造工艺，同样的12通道DDR5内存、160条PCIe 5.0总线，同样的安全特性，同样的SP5封装接口。

对于客户来说，可以根据应用负载、场景的需要，在两大系列产品之间无缝切换或升级。

Zen4c EPYC 9704系列，目前只有三款型号：

EPYC 9754：

满血版本，完整的128核心，频率2.25-3.1GHz，相比于Zen4 96核心的EPYC 9654分别低了150MHz、600MHz，而热设计功耗保持不变，默认还是360W，可调范围320-400W。

EPYC 9754S：

就是在EPYC 9754的基础上关闭了SMT同步多线程技术，变为128核心128线程，其他完全相同。

EPYC 9734：

精简到112核心224线程、112MB二级缓存，三级缓存不变还是完整的256MB，核心频率略微降至2.2-3.0GHz，默认热设计功耗也降至340W，可调范围仍是320-400W。

Zen4c EPYC 9704系列的真正对手，其实是Ampere、NVIDIA、亚马逊等厂商的众多Arm架构数据中心处理器，以及Intel计划明年推出的Sierra Forest，后者首次采用纯能效核设计，但最多只有144核心144线程，不但数量处于劣势，架构性能上更是差了N个档次。

可以说，无论规格参数，还是性能表现，Zen4c都可以轻松碾压它们，尤其是对比Arm产品更是有着x86成熟生态的天然优势。

性能方面，AMD使用EPYC 9754，对比了两个竞品，一是Intel最新一代旗舰Sapphire Rapids四代可扩展至强铂金8490H，后者有60核心120线程、112.5MB三级缓存、1.9-3.5GHz频率，热设计功耗350W，二是Ampere AltraMax，128核心(更新的AltraOne最高可以192核心但尚未上市)。

具体数据就不一一列举了，反正无论是性能还是能效，EPYC都是碾压一般的存在。

Zen4c Bergamo EPYC 9704系列处理器现已上市，相关解决方案也正在陆续登场，比如戴尔的PowerEdge服务器就已支持，针对云原生负载做了特别优化。

现场实拍：

数据中心领域，AMD还有创新。

2022年3月，AMD发布了代号“Milan-X”(米兰-X)的EPYC 7003X系列处理器，在原有Milan EPYC 7003系列的基础上，加入3D V-Cache缓存，成为世界上首款采用3D芯片堆叠额数据中心CPU。

EPYC 7003X系列的每个CCD上堆叠了64MB 3D缓存，八个CCD就是512MB，再加上原生的256MB三级缓存，合计就是768MB。

更关键的是，3D缓存、三级缓存具备同样的访问带宽、延迟，可以视为一个整体，这就等于瞬间将三级缓存扩大了三倍，由此带来的性能提升堪称恐怖。

如今，在新一代Genoa EPYC 9004系列的基础上，AMD如法炮制，发布了Genoa-X EPYC 9084X系列，缓存规模更加暴力。

接下来就看看它到底有多么暴力。

首先，Genoa-X系列上使用的3D V-Cache技术，从原理到实现方式都和上代Milan-X系列，以及桌面上的锐龙7 5800X3D、锐龙7000X3D如出一辙。

3D缓存部分采用7nm制造工艺，因为不需要逻辑电路、控制单元等，只需单纯地堆砌SRAM阵列单元，所以容量可以做得更大，目前是64MB，两倍于原生三级缓存。

3D缓存部分“面朝下”扣在5nm制造工艺的CCD之上，通过混合键合的方式组合成一个整体，通过TSV硅穿孔提供信号、电源传输通道。

MD也是目前唯一批量出货混合键合封装产品的企业。

由于3D缓存部分面积较小，因此还设计了结构性的Die，同样覆盖在CCD、IOD之上，保证整体高度的一致性，便于封装、散热。

Genoa-X系列和Genoa系列一样都是最多96个Zen4核心与384MB原生三级缓存，分为12个CCD，也就是每个CCD上自带32MB三级缓存。

不同之处在于，Genoa-X在每个CCD上额外堆叠了64MB 3D缓存，12个CCD就是768MB，这样一来总的三级缓存就达到了惊人的1152MB，也是处理器缓存史上第一次突破1GB。

如果再算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB)，Genoa-X的缓存总量就是1254MB！

型号一共三款：

EPYC 9684X：

96核心192线程，频率2.55-3.7GHz，三级缓存1152MB(384MB＋768MB)，默认TDP 400W，可调范围320-400W。

EPYC 9384X：

32核心64线程，频率3.1-3.9GHz，三级缓存768MB，默认TDP 320W，可调范围320-400W。

EPYC 9184X：

16核心32线程，频率3.55-4.2GHz，三级缓存768MB，TDP同上。

后两款型号都开启了8个CCD，三级缓存部分包括原生的256MB、3D堆叠的512MB。

另外，对比非3D缓存的EPYC 9004系列，缓存大增的同时，频率不得不有所妥协，但主要只是降低了基准频率，最高加速频率变化并不大。

性能方面，海量缓存带来的优势可以说是断崖式的，不过AMD并未对比原有的Genoa 9004系列，而是把竞品拿过来好好欺负了一顿，60核心的旗舰级至强铂金8490H完全没法打，各种性能测试都是两三倍的差异。

得益于超多核心、超大缓存两大优势集于一体，Genoa-X系列实现了超高的计算密度，而且多处理器互连的效率非常高，几乎可以呈线性提升。

按照官方说法，Genoa-X只需要8个节点，就可以达成传统14个节点的性能水平。

戴尔、慧与(HPE)、联想、超微等都将推出基于Genoa-X的产品。

接着看加速卡。

AI浪潮中，NVIDIA无疑是最大受益者，A100等加速卡供不应求，多年耕耘的成熟生态更是大大降低了开发难度和成本。

当然，Intel、AMD不会让NVIDIA独美，都在尝试各自的方案，设计新的硬件产品。

Intel一方面是传统的至强x86 CPU处理器，另一方面是基于Xe HPC高性能计算架构的GPU，首款产品Ponte Vecchio已经用于超级计算机，还在尝试融合CPU+GPU，打造所谓的XPU，只是首款产品Flacon Shores出师未捷，退回了纯GPU方案，未来再冲击CPU+GPU融合。

AMD在硬件层面的进展就顺利多了，不但有越来越强悍的EPYC CPU处理器，Instinct系列加速卡也是每一代都在飞跃。

早在今年初，AMD就宣布了新一代Instinct MI300，是全球首款同时集成CPU、GPU的数据中心APU。

现在，它的名字变成了Instinct MI300A，同时AMD还首次宣布了全新的纯GPU产品——“Instinct MI300X”。

Instinct MI300A号称全球首款面向HPC、AI的APU加速器，基于AMD多年的成熟丰富经验，实现了CPU、GPU的完美合体。

Instinct MI300A一共有多达13颗小芯片，其中计算部分9颗，都是5nm工艺制造。

CPU部分为Zen4架构，三颗CCD芯片，24个核心，GPU为最新的CDNA3架构，六颗XCD芯片，核心单元数量仍未公布，还有128GB容量的HBM3高带宽内存，可以为CPU、GPU所共享。

另外4颗芯片都是6nm工艺制造，是计算部分3D堆叠的基础，作为有源中介层，可以处理I/O和其他各种功能。

整颗芯片有多达1460亿个晶体管，超过了Intel 1000亿个晶体管的Ponte Vecchio，而且后者只有GPU。

标准的Socket独立封装(不是SP5)，有了它就不再需要单独的EPYC处理器，一颗芯片组就能构成一个完整的计算系统。

，

Instinct MI300X和前辈一样是纯GPU方案，其实就是把Instinct MI300A里的那个CPU单元也换成了CDNA3 GPU单元，HBM3高带宽内存也增加到了192GB，相当于NVIDIA H100 80GB的足足2.4倍。

同时，HBM内存带宽高达5.2TB/s，Infinity Fabric总线带宽也有896GB/s，同样远超NVIDIA H100。

晶体管数量进一步来到1530亿个，跨越了1500亿大关，叹为观止。

发布会现场，AMD第一次公开展示了Instinct MI300X，实时输出了一首关于旧金山的诗歌。

它单卡即可轻松运行400亿参数的大语言模型，面对不同模型、参数规模所需的GPU数量相比竞品更少，自然成本更低。

得益于超大的HBM3内存，这个大模型，其实就是完全在HBM3内存中运行的，无需使用系统内存，自然节省了数据的传输与拷贝，从而大大降低延迟、提升性能。

同时，AMD还宣布了新的Instinct平台，基于业界标准的OCP开放计算标准，八块Instinct MI300X加速卡并行，可提供总计多达1.5TB HBM3内存。

Instinct MI300A现已出样，Instinct MI300X将在第三季度出样，相关产品预计第四季度上市。

MI300A

MI300X

Instinct平台

关键词：

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽 动态

拳打Intel、脚踢NV！AMD发布128核心Zen4c、1530亿晶体管GPU怪兽动态