当前英特尔架构的单核可以执行多少次浮点乘法？

【问题标题】：How many float multiplies can be performed with a single core of the current Intel architectures?当前英特尔架构的单核可以执行多少次浮点乘法？
【发布时间】：2011-11-11 01:16:32
【问题描述】：

试图评估嵌入式架构的性能提升我试图搜索可以在 Core 2 和 Core i7 架构的单个内核上在一个周期内执行的浮点乘法的数量，但找不到快速的答案。不幸的是，我不熟悉 ISA，所以我无法通过查看相应的说明来判断这一点。我认为这将是某种 SIMD 指令。有什么想法吗？

【问题讨论】：

标签： floating-point parallel-processing core simd cpu-architecture

【解决方案1】：

有一件事：Core 2 不是英特尔的最新架构。那就是桑迪桥。

Core 2 和 Core i7 Nehalem，可以维持 1 SSE 乘法/周期。每条 SSE 指令最多可以处理 4 个单精度或 2 个双精度。这就是 每个周期 2 DP 或 4 SP 浮点乘法。

Core i7 Sandy Bridge 可以维持 1 AVX 乘法/循环。 AVX 是 SSE 的两倍。这就是 每个周期 4 DP 或 8 SP 浮点乘法。

【讨论】：

是否可以假设当前的 AMD 处理器提供相同的性能？
正确。我认为自 K10 架构以来的所有 AMD 处理器都具有相同的 SSE 吞吐量。（1 个 SSE 乘法/周期）对于新的 Bulldozer 架构，由于每个“Bulldozer 模块”之间共享 FPU，它会稍微复杂一些。