当前一代至强处理器之间的差异
Differences between current gen Xeon Processors
Xeon W 系列、Bronze、Silver、Gold 和 Platinum 系列之间的实际区别是什么?
对于 Xeons 的早期版本,E3 是单插槽 CPU。而 E5 可用于带有两个插槽的主板。 E7 支持四插座(可能也是 8 个)
但是,对于当前这一代至强,大多数产品线的可扩展性为 2S(一块主板上有 2 个处理器)
如果 Xeon Silver 和 Xeon Platinum 可以用于双插槽主板,为什么我需要铂金处理器,它至少比银部分贵 5 倍?除非有其他区别。
当前一代 Xeon 处理器之间有何区别?我看到缓存大小有些不同。除此之外,我找不到别的东西。
Gold/Platinum 每个插槽有更多内核,and/or 更高的基础或涡轮时钟 。这就是您支付的大部分费用。
让它们在 4S 或更高系统中工作的额外 UPI 链接在 2 插槽系统中使用时不相关,但这不是唯一的功能。想必这只是成本的一小部分。随着从包容性 L3 缓存变为非包容性,Skylake Xeon 和更高版本已经需要一个与 L3 标签分开的监听过滤器,即使对于单插槽也是如此,这与 Xeon E5 不同,它只是将所有内容广播到另一个插槽。据推测,Xeon-SP 的监听过滤器也可以用于过滤对另一个插槽的监听,因此它不需要成为 1S 和 2S 的单独功能。
例如最高端的第二代 (Cascade Lake) Intel® Xeon® Platinum 9282 Processor 有 56 个内核(112 个线程),最大睿频 = 3.8 GHz,基本时钟 = 2.6 GHz,以及 77 MB 的 L3 缓存。
顶级 Silver 是 Intel® Xeon® Silver 4216:16c/32t 3.2 GHz turbo,2.10 GHz 基础,22 MB L3 缓存。
尽管有近 4 倍的内核,但 Platinum 上的持续和峰值涡轮时钟更高。 (TDP 为 400W,而 Silver 为 100W!不太疯狂的铂金芯片的 TDP 较低,例如,具有 2.3GHz 基础/3.7GHz 涡轮增压的 32c/64t 是 250W TDP)。
此外,一些(全部?)银牌/铜牌 CPU 只有一个 AVX512 FMA 执行单元,因此 512 位 SIMD FP 数学指令的吞吐量减少 ,包括所有 FP 数学和 int<->FP 转换,以及 _mm512_lzcnt_epi32
。在方舟页面上的 # of AVX-512 FMA Unit
行寻找特定的 CPU。 对于整数 SIMD,仅乘法受到影响。(在硬件中,SIMD 整数乘以 uops 运行 在 FMA 单元上。)移位,混合,洗牌,add/sub, compare 和 boolean 都有单独的向量 ALU,它们有 512 位宽,并且占用的芯片面积不如乘法器多。
即使是最高端的 Silver 4216 Cascade Lake 也只有 1 个 512 位 FMA 单元。
运行 AVX2 代码差异为零。即使是仅使用 256 位向量的 AVX512 也可以。 (gcc -march=skylake-avx512
默认为 -mprefer-vector-width=256
因为完全使用 512 位向量会暂时降低 max turbo。它希望避免一个不重要的 512 位向量化循环影响其余部分的时钟速度的情况大部分时间都花在标量代码上的程序。)
但是如果你正在做大量的 AVX-512 FP 数字 c运行ching 你可能想要一个 CPU 有 2 个 FMA 单元并用 512 位向量编译。
不知道你为什么要标记这个 Xeon Phi;那是一个完全不同的微架构。
Xeon W 系列、Bronze、Silver、Gold 和 Platinum 系列之间的实际区别是什么?
对于 Xeons 的早期版本,E3 是单插槽 CPU。而 E5 可用于带有两个插槽的主板。 E7 支持四插座(可能也是 8 个)
但是,对于当前这一代至强,大多数产品线的可扩展性为 2S(一块主板上有 2 个处理器)
如果 Xeon Silver 和 Xeon Platinum 可以用于双插槽主板,为什么我需要铂金处理器,它至少比银部分贵 5 倍?除非有其他区别。
当前一代 Xeon 处理器之间有何区别?我看到缓存大小有些不同。除此之外,我找不到别的东西。
Gold/Platinum 每个插槽有更多内核,and/or 更高的基础或涡轮时钟 。这就是您支付的大部分费用。
让它们在 4S 或更高系统中工作的额外 UPI 链接在 2 插槽系统中使用时不相关,但这不是唯一的功能。想必这只是成本的一小部分。随着从包容性 L3 缓存变为非包容性,Skylake Xeon 和更高版本已经需要一个与 L3 标签分开的监听过滤器,即使对于单插槽也是如此,这与 Xeon E5 不同,它只是将所有内容广播到另一个插槽。据推测,Xeon-SP 的监听过滤器也可以用于过滤对另一个插槽的监听,因此它不需要成为 1S 和 2S 的单独功能。
例如最高端的第二代 (Cascade Lake) Intel® Xeon® Platinum 9282 Processor 有 56 个内核(112 个线程),最大睿频 = 3.8 GHz,基本时钟 = 2.6 GHz,以及 77 MB 的 L3 缓存。
顶级 Silver 是 Intel® Xeon® Silver 4216:16c/32t 3.2 GHz turbo,2.10 GHz 基础,22 MB L3 缓存。
尽管有近 4 倍的内核,但 Platinum 上的持续和峰值涡轮时钟更高。 (TDP 为 400W,而 Silver 为 100W!不太疯狂的铂金芯片的 TDP 较低,例如,具有 2.3GHz 基础/3.7GHz 涡轮增压的 32c/64t 是 250W TDP)。
此外,一些(全部?)银牌/铜牌 CPU 只有一个 AVX512 FMA 执行单元,因此 512 位 SIMD FP 数学指令的吞吐量减少 ,包括所有 FP 数学和 int<->FP 转换,以及 _mm512_lzcnt_epi32
。在方舟页面上的 # of AVX-512 FMA Unit
行寻找特定的 CPU。 对于整数 SIMD,仅乘法受到影响。(在硬件中,SIMD 整数乘以 uops 运行 在 FMA 单元上。)移位,混合,洗牌,add/sub, compare 和 boolean 都有单独的向量 ALU,它们有 512 位宽,并且占用的芯片面积不如乘法器多。
即使是最高端的 Silver 4216 Cascade Lake 也只有 1 个 512 位 FMA 单元。
运行 AVX2 代码差异为零。即使是仅使用 256 位向量的 AVX512 也可以。 (gcc -march=skylake-avx512
默认为 -mprefer-vector-width=256
因为完全使用 512 位向量会暂时降低 max turbo。它希望避免一个不重要的 512 位向量化循环影响其余部分的时钟速度的情况大部分时间都花在标量代码上的程序。)
但是如果你正在做大量的 AVX-512 FP 数字 c运行ching 你可能想要一个 CPU 有 2 个 FMA 单元并用 512 位向量编译。
不知道你为什么要标记这个 Xeon Phi;那是一个完全不同的微架构。