2022年11月,AMD正式发布了代号“Genoa”(热那亚)的新一代数据中心处理器EPYC 9004系列,不但节奏上抢在了竞品之前,规格、性能更是碾压一般的存在。
5nm制造工艺、chiplet小芯片架构、Zen4 CPU架构、最多96核心192线程和384MB三级缓存、12通道6TB DDR5-4800内存、160条PCIe 5.0总线通道……
如此先进的存在,直接让竞品相形见绌,更进一步,Genoa EPYC 9004系列并非全部,只是AMD新一代数据中心处理器家族中的一员。
(资料图)
AMD官方早就预告了由Genoa衍生出来的另外三个分支,分别面向不同应用领域和工作负载,共同组成一个庞大的阵营。
其中,“Genoa-X”(热那亚-X)加入3D缓存,主打更高性能计算;
“Bergamo”(贝加莫)首次采用精简架构Zen4c,是AMD首款专门针对云原生计算设计的产品;
“Siena”(锡耶纳)也是Zen4c架构,服务于电信基础设施、边缘计算市场。
现在,Bergamo、Genoa-X终于来了,Siena也将在下半年跟上,轮番出击,势不可挡。
这里,我们先来看看EPYC 9704系列,基于特别设计的Zen4c架构。
Zen4c架构其实就是Zen4的精简版,可以说是一个小核、一个大核,一个注重高能效、一个追求极致性能。
但是不同于Intel混合架构中性能核、能效核在架构、规格上截然不同,AMD让两种核心架构保持了高度的一致性。
它们都基于同样的ISA指令集和IPC性能,几乎所有的微架构指标都一模一样,主要区别就是三级缓存,平均每核心的容量从4MB减半到2MB。
另外,AMD在消费级的锐龙处理器上未来也会引入“大小核”,但也是类似的理念,小核部分精简的基本只是缓存。
内部经过重新设计之后,包含二级缓存在内的单个Zen4c核心面积仅为2.48平方毫米,相比Zen4核心的3.84平方毫米,缩小了多达35.4%,从而可以大大提高核心密度。
其他诸如前端单元、非核心单元、执行单元、FPU浮点单元等模块也都缩小了40%上下。
单个CCD内的核心数量从8个翻番到16个,面积依然控制在72.7平方毫米,相比Zen4 CCD的66.3平方毫米只增加了9.7%。
单颗芯片的CCD总数从12个减少到8个,但是核心数量从最多96个(192线程)增加到最多128个(256线程)。
缓存方面,一级缓存不变还是每核心32KB指令缓存、32KB数据缓存,但因为核心数多了,总量从6MB增加到8MB。
二级缓存每个核心还是独享1MB,合计增加到最多128MB,相比Zen4 EPYC增加了32MB。
三级缓存还是每个CCD 32MB,不过从8个核心一组CCX共享全部32MB,改成了每8个核心一组CCX共享其中一半16MB,合计总量256MB,相比Zen4 EPYC少了128MB。
事实上,AMD完全可以继续在单颗芯片内放置12个CCD,那样将拥有恐怖的192核心384线程、128MB二级缓存、384MB三级缓存……
对比Zen4 EPYC 9004、Zen4c EPYC 9704两大系列的平台特性,可以看到二者的高度一致性,可以说除了核心数量、缓存容量之外,几乎一切都是通用的。
同样的5nm制造工艺,同样的12通道DDR5内存、160条PCIe 5.0总线,同样的安全特性,同样的SP5封装接口。
对于客户来说,可以根据应用负载、场景的需要,在两大系列产品之间无缝切换或升级。
Zen4c EPYC 9704系列,目前只有三款型号:
EPYC 9754:
满血版本,完整的128核心,频率2.25-3.1GHz,相比于Zen4 96核心的EPYC 9654分别低了150MHz、600MHz,而热设计功耗保持不变,默认还是360W,可调范围320-400W。
EPYC 9754S:
就是在EPYC 9754的基础上关闭了SMT同步多线程技术,变为128核心128线程,其他完全相同。
EPYC 9734:
精简到112核心224线程、112MB二级缓存,三级缓存不变还是完整的256MB,核心频率略微降至2.2-3.0GHz,默认热设计功耗也降至340W,可调范围仍是320-400W。
Zen4c EPYC 9704系列的真正对手,其实是Ampere、NVIDIA、亚马逊等厂商的众多Arm架构数据中心处理器,以及Intel计划明年推出的Sierra Forest,后者首次采用纯能效核设计,但最多只有144核心144线程,不但数量处于劣势,架构性能上更是差了N个档次。
可以说,无论规格参数,还是性能表现,Zen4c都可以轻松碾压它们,尤其是对比Arm产品更是有着x86成熟生态的天然优势。
性能方面,AMD使用EPYC 9754,对比了两个竞品,一是Intel最新一代旗舰Sapphire Rapids四代可扩展至强铂金8490H,后者有60核心120线程、112.5MB三级缓存、1.9-3.5GHz频率,热设计功耗350W,二是Ampere AltraMax,128核心(更新的AltraOne最高可以192核心但尚未上市)。
具体数据就不一一列举了,反正无论是性能还是能效,EPYC都是碾压一般的存在。
Zen4c Bergamo EPYC 9704系列处理器现已上市,相关解决方案也正在陆续登场,比如戴尔的PowerEdge服务器就已支持,针对云原生负载做了特别优化。
现场实拍:
数据中心领域,AMD还有创新。
2022年3月,AMD发布了代号“Milan-X”(米兰-X)的EPYC 7003X系列处理器,在原有Milan EPYC 7003系列的基础上,加入3D V-Cache缓存,成为世界上首款采用3D芯片堆叠额数据中心CPU。
EPYC 7003X系列的每个CCD上堆叠了64MB 3D缓存,八个CCD就是512MB,再加上原生的256MB三级缓存,合计就是768MB。
更关键的是,3D缓存、三级缓存具备同样的访问带宽、延迟,可以视为一个整体,这就等于瞬间将三级缓存扩大了三倍,由此带来的性能提升堪称恐怖。
如今,在新一代Genoa EPYC 9004系列的基础上,AMD如法炮制,发布了Genoa-X EPYC 9084X系列,缓存规模更加暴力。
接下来就看看它到底有多么暴力。
首先,Genoa-X系列上使用的3D V-Cache技术,从原理到实现方式都和上代Milan-X系列,以及桌面上的锐龙7 5800X3D、锐龙7000X3D如出一辙。
3D缓存部分采用7nm制造工艺,因为不需要逻辑电路、控制单元等,只需单纯地堆砌SRAM阵列单元,所以容量可以做得更大,目前是64MB,两倍于原生三级缓存。
3D缓存部分“面朝下”扣在5nm制造工艺的CCD之上,通过混合键合的方式组合成一个整体,通过TSV硅穿孔提供信号、电源传输通道。
MD也是目前唯一批量出货混合键合封装产品的企业。
由于3D缓存部分面积较小,因此还设计了结构性的Die,同样覆盖在CCD、IOD之上,保证整体高度的一致性,便于封装、散热。
Genoa-X系列和Genoa系列一样都是最多96个Zen4核心与384MB原生三级缓存,分为12个CCD,也就是每个CCD上自带32MB三级缓存。
不同之处在于,Genoa-X在每个CCD上额外堆叠了64MB 3D缓存,12个CCD就是768MB,这样一来总的三级缓存就达到了惊人的1152MB,也是处理器缓存史上第一次突破1GB。
如果再算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB),Genoa-X的缓存总量就是1254MB!
型号一共三款:
EPYC 9684X:
96核心192线程,频率2.55-3.7GHz,三级缓存1152MB(384MB+768MB),默认TDP 400W,可调范围320-400W。
EPYC 9384X:
32核心64线程,频率3.1-3.9GHz,三级缓存768MB,默认TDP 320W,可调范围320-400W。
EPYC 9184X:
16核心32线程,频率3.55-4.2GHz,三级缓存768MB,TDP同上。
后两款型号都开启了8个CCD,三级缓存部分包括原生的256MB、3D堆叠的512MB。
另外,对比非3D缓存的EPYC 9004系列,缓存大增的同时,频率不得不有所妥协,但主要只是降低了基准频率,最高加速频率变化并不大。
性能方面,海量缓存带来的优势可以说是断崖式的,不过AMD并未对比原有的Genoa 9004系列,而是把竞品拿过来好好欺负了一顿,60核心的旗舰级至强铂金8490H完全没法打,各种性能测试都是两三倍的差异。
得益于超多核心、超大缓存两大优势集于一体,Genoa-X系列实现了超高的计算密度,而且多处理器互连的效率非常高,几乎可以呈线性提升。
按照官方说法,Genoa-X只需要8个节点,就可以达成传统14个节点的性能水平。
戴尔、慧与(HPE)、联想、超微等都将推出基于Genoa-X的产品。
接着看加速卡。
AI浪潮中,NVIDIA无疑是最大受益者,A100等加速卡供不应求,多年耕耘的成熟生态更是大大降低了开发难度和成本。
当然,Intel、AMD不会让NVIDIA独美,都在尝试各自的方案,设计新的硬件产品。
Intel一方面是传统的至强x86 CPU处理器,另一方面是基于Xe HPC高性能计算架构的GPU,首款产品Ponte Vecchio已经用于超级计算机,还在尝试融合CPU+GPU,打造所谓的XPU,只是首款产品Flacon Shores出师未捷,退回了纯GPU方案,未来再冲击CPU+GPU融合。
AMD在硬件层面的进展就顺利多了,不但有越来越强悍的EPYC CPU处理器,Instinct系列加速卡也是每一代都在飞跃。
早在今年初,AMD就宣布了新一代Instinct MI300,是全球首款同时集成CPU、GPU的数据中心APU。
现在,它的名字变成了Instinct MI300A,同时AMD还首次宣布了全新的纯GPU产品——“Instinct MI300X”。
Instinct MI300A号称全球首款面向HPC、AI的APU加速器,基于AMD多年的成熟丰富经验,实现了CPU、GPU的完美合体。
Instinct MI300A一共有多达13颗小芯片,其中计算部分9颗,都是5nm工艺制造。
CPU部分为Zen4架构,三颗CCD芯片,24个核心,GPU为最新的CDNA3架构,六颗XCD芯片,核心单元数量仍未公布,还有128GB容量的HBM3高带宽内存,可以为CPU、GPU所共享。
另外4颗芯片都是6nm工艺制造,是计算部分3D堆叠的基础,作为有源中介层,可以处理I/O和其他各种功能。
整颗芯片有多达1460亿个晶体管,超过了Intel 1000亿个晶体管的Ponte Vecchio,而且后者只有GPU。
标准的Socket独立封装(不是SP5),有了它就不再需要单独的EPYC处理器,一颗芯片组就能构成一个完整的计算系统。
,
Instinct MI300X和前辈一样是纯GPU方案,其实就是把Instinct MI300A里的那个CPU单元也换成了CDNA3 GPU单元,HBM3高带宽内存也增加到了192GB,相当于NVIDIA H100 80GB的足足2.4倍。
同时,HBM内存带宽高达5.2TB/s,Infinity Fabric总线带宽也有896GB/s,同样远超NVIDIA H100。
晶体管数量进一步来到1530亿个,跨越了1500亿大关,叹为观止。
发布会现场,AMD第一次公开展示了Instinct MI300X,实时输出了一首关于旧金山的诗歌。
它单卡即可轻松运行400亿参数的大语言模型,面对不同模型、参数规模所需的GPU数量相比竞品更少,自然成本更低。
得益于超大的HBM3内存,这个大模型,其实就是完全在HBM3内存中运行的,无需使用系统内存,自然节省了数据的传输与拷贝,从而大大降低延迟、提升性能。
同时,AMD还宣布了新的Instinct平台,基于业界标准的OCP开放计算标准,八块Instinct MI300X加速卡并行,可提供总计多达1.5TB HBM3内存。
Instinct MI300A现已出样,Instinct MI300X将在第三季度出样,相关产品预计第四季度上市。
MI300A
MI300X
Instinct平台
关键词: