【问题标题】:Intel Xeon E5- 2670 v2 Calculating GFlopsIntel Xeon E5-2670 v2 计算 GFlops
【发布时间】:2016-04-08 07:14:22
【问题描述】:

我如何计算处理器的 GFlops:Intel Xeon E5-2670 v2 时钟速度:2.5 GHz vCPU:2 内存:7.5 GiB 存储:1*32 SSD 网络性能:中等(500 Mbps)

它的aws实例类型:m3.large 我无法找到 IPC 并计算 GFlops,因此我无法估算我的成本。 任何帮助都会很棒。

【问题讨论】:

    标签: amazon-web-services instance ipc intel flops


    【解决方案1】:

    至强 E5-xxxx v2 是 IvyBridge 内核,因此不支持 FMA。有关 IvyBridge 管道的详细信息,请参阅Agner Fog's microarch pdf

    如果您设法避免任何内存瓶颈,IvB 可以维持每个时钟两个 AVX 矢量 FP 操作的吞吐量。执行端口1可以运行vmulpsvaddps,但是执行端口0只能运行vmulps

    所以:2.5G 时钟/秒 * 2 个 FP 向量/时钟 * 8 个单精度元素/向量

    因此:单精度 40GFlop/sec 理论最大值,使用 AVX 256b 向量。双精度:20GFlop/sec(每个 256b 向量 4 个 DP 元素)。

    请注意,即使来自 L1 缓存,IvB 也只有 128b 加载/存储数据路径,并且对于 256b 向量,每 2 个时钟只能支持 2 次加载和 1 次存储。

    mul 有 5c 的延迟,add 有 3c 的延迟,因此您需要足够的指令级并行度来一次保持 5 或 10 个乘法运算。

    【讨论】:

    • 你能解释一下或给我一个关于如何计算 IPC 的链接吗?
    • @AnchalKhandelwal:在第一段中我已经这样做了。对于实际代码 (see some of my other SO answers) 来说,这是非常重要的,但很容易给出理论上的最大值。向量 FP mul 和 add 单元是完全流水线的,我忘了提。
    • 那么计算GFlops,可以直接使用vCores吗?如果我的 vCores 是 32 怎么办。这个处理器有 10 个内核和 20 个线程。我应该这样做:(2.5*10*8) * 2 处理器吗?核心详细信息位于:cpu-world.com/CPUs/Xeon/Intel-Xeon%20E5-2670%20v2.html
    • @AnchalKhandelwal:就像 Agner Fog 的 microarch pdf 解释的那样,如果您的代码已经使核心的执行单元饱和,超线程无济于事。它可以帮助解决缓存未命中或分支错误预测或延迟的瓶颈代码。除非你有非常好的代码可以在没有超线程的情况下使内核饱和,否则你需要在类似的硬件上对其进行基准测试以了解它的行为。
    猜你喜欢
    • 2013-10-08
    • 1970-01-01
    • 2021-10-18
    • 1970-01-01
    • 2019-01-26
    • 1970-01-01
    • 2016-04-24
    • 1970-01-01
    • 2013-12-06
    相关资源
    最近更新 更多