Intel Xeon E5-2670 v2 计算 GFlops答案

【问题标题】：Intel Xeon E5- 2670 v2 Calculating GFlopsIntel Xeon E5-2670 v2 计算 GFlops
【发布时间】：2016-04-08 07:14:22
【问题描述】：

我如何计算处理器的 GFlops：Intel Xeon E5-2670 v2 时钟速度：2.5 GHz vCPU：2 内存：7.5 GiB 存储：1*32 SSD 网络性能：中等（500 Mbps）

它的aws实例类型：m3.large 我无法找到 IPC 并计算 GFlops，因此我无法估算我的成本。任何帮助都会很棒。

【问题讨论】：

【解决方案1】：

至强 E5-xxxx v2 是 IvyBridge 内核，因此不支持 FMA。有关 IvyBridge 管道的详细信息，请参阅Agner Fog's microarch pdf。

如果您设法避免任何内存瓶颈，IvB 可以维持每个时钟两个 AVX 矢量 FP 操作的吞吐量。执行端口1可以运行vmulps或vaddps，但是执行端口0只能运行vmulps。

所以：2.5G 时钟/秒 * 2 个 FP 向量/时钟 * 8 个单精度元素/向量

因此：单精度 40GFlop/sec 理论最大值，使用 AVX 256b 向量。双精度：20GFlop/sec（每个 256b 向量 4 个 DP 元素）。

请注意，即使来自 L1 缓存，IvB 也只有 128b 加载/存储数据路径，并且对于 256b 向量，每 2 个时钟只能支持 2 次加载和 1 次存储。

mul 有 5c 的延迟，add 有 3c 的延迟，因此您需要足够的指令级并行度来一次保持 5 或 10 个乘法运算。

【讨论】：

你能解释一下或给我一个关于如何计算 IPC 的链接吗？
@AnchalKhandelwal：在第一段中我已经这样做了。对于实际代码 (see some of my other SO answers) 来说，这是非常重要的，但很容易给出理论上的最大值。向量 FP mul 和 add 单元是完全流水线的，我忘了提。
那么计算GFlops，可以直接使用vCores吗？如果我的 vCores 是 32 怎么办。这个处理器有 10 个内核和 20 个线程。我应该这样做：(2.5*10*8) * 2 处理器吗？核心详细信息位于：cpu-world.com/CPUs/Xeon/Intel-Xeon%20E5-2670%20v2.html
@AnchalKhandelwal：就像 Agner Fog 的 microarch pdf 解释的那样，如果您的代码已经使核心的执行单元饱和，超线程无济于事。它可以帮助解决缓存未命中或分支错误预测或延迟的瓶颈代码。除非你有非常好的代码可以在没有超线程的情况下使内核饱和，否则你需要在类似的硬件上对其进行基准测试以了解它的行为。