【发布时间】:2019-07-25 01:01:48
【问题描述】:
我想了解如何计算 FMA 性能。如果我们查看这里的描述:
对于 Skylake 架构,该指令具有 Latency=4 和 Throughput(CPI)=0.5,因此该指令的整体性能为每条指令的 4*0.5 = 2 个时钟。
据我所知,如果最大(涡轮)时钟频率为 3GHz,那么对于单个内核,我可以在一秒钟内执行 1 500 000 000 条指令。
对吗?如果是这样,我观察到性能略高的原因可能是什么?
【问题讨论】: