Intel Xeon E5- 2670 v2 计算 GFlops
Intel Xeon E5- 2670 v2 Calculating GFlops
我如何计算处理器的 GFlops:Intel Xeon E5-2670 v2
时钟速度:2.5 GHz
vCPU:2
内存:7.5 GiB
存储:1 * 32 SSD
网络性能:中等 (500 Mbps)
其aws实例类型:m3.large
我无法找到 IPC 并计算 GFlops,所以我无法估算我的成本。
任何帮助都会很棒。
Xeon E5-xxxx v2 是 IvyBridge 内核,因此不支持 FMA。有关 IvyBridge 管道的详细信息,请参阅 Agner Fog's microarch pdf。
如果您设法避免任何内存瓶颈,IvB 可以维持每个时钟两个 AVX 矢量 FP 操作的吞吐量。执行端口1可以运行vmulps
或vaddps
,但是执行端口0只能运行vmulps
.
所以:2.5G clock/sec * 2个FP向量/时钟 * 8个单精度元素/向量
因此:单精度 40GFlop/sec 理论最大值,使用 AVX 256b 向量。双精度:20GFlop/sec(每个 256b 向量有 4 个 DP 元素)。
请注意,即使来自 L1 缓存,IvB 也只有 128b load/store 条数据路径,对于 256b 向量,每 2 个时钟只能维持 2 次加载和一次存储 .
mul 有 5c 延迟,add 有 3c 延迟,所以你需要足够的指令级并行性来同时保持 5 或 10 个乘法运算。
我如何计算处理器的 GFlops:Intel Xeon E5-2670 v2 时钟速度:2.5 GHz vCPU:2 内存:7.5 GiB 存储:1 * 32 SSD 网络性能:中等 (500 Mbps)
其aws实例类型:m3.large 我无法找到 IPC 并计算 GFlops,所以我无法估算我的成本。 任何帮助都会很棒。
Xeon E5-xxxx v2 是 IvyBridge 内核,因此不支持 FMA。有关 IvyBridge 管道的详细信息,请参阅 Agner Fog's microarch pdf。
如果您设法避免任何内存瓶颈,IvB 可以维持每个时钟两个 AVX 矢量 FP 操作的吞吐量。执行端口1可以运行vmulps
或vaddps
,但是执行端口0只能运行vmulps
.
所以:2.5G clock/sec * 2个FP向量/时钟 * 8个单精度元素/向量
因此:单精度 40GFlop/sec 理论最大值,使用 AVX 256b 向量。双精度:20GFlop/sec(每个 256b 向量有 4 个 DP 元素)。
请注意,即使来自 L1 缓存,IvB 也只有 128b load/store 条数据路径,对于 256b 向量,每 2 个时钟只能维持 2 次加载和一次存储 .
mul 有 5c 延迟,add 有 3c 延迟,所以你需要足够的指令级并行性来同时保持 5 或 10 个乘法运算。