【发布时间】:2013-07-21 07:51:47
【问题描述】:
是否有任何关于 AVX2 收集延迟的数据?
(例如 _mm256_i32gather_ps 指令访问单个高速缓存行)
【问题讨论】:
-
只有一个经验数据点 - 我最近对收集的负载运行了一个快速基准测试,吞吐量非常糟糕 - 我正在加载一个拆分向量,所以向量的前半部分来自一个缓存行并且另一半的下半场——似乎需要好几个周期。
标签: performance x86 latency micro-optimization avx2