用非常数除数进行矢量化整数除法的最快方法答案

【问题标题】：Fastest method of vectorized integer division by non-constant divisor用非常数除数进行矢量化整数除法的最快方法
【发布时间】：2015-07-22 23:40:03
【问题描述】：

基于this question 的答案/cmets，我用 gcc 4.9.2 (MinGW64) 编写了一个性能测试，以估计哪种方式的多个整数除法更快，如下所示：

#include <emmintrin.h>  // SSE2

static unsigned short x[8] = {0, 55, 2, 62003, 786, 5555, 123, 32111};  // Dividend

__attribute__((noinline)) static void test_div_x86(unsigned i){
    for(; i; --i)
        x[0] /= i,
        x[1] /= i,
        x[2] /= i,
        x[3] /= i,
        x[4] /= i,
        x[5] /= i,
        x[6] /= i,
        x[7] /= i;
}

__attribute__((noinline)) static void test_div_sse(unsigned i){
    for(; i; --i){
        __m128i xmm0 = _mm_loadu_si128((const __m128i*)x);
        __m128 xmm1 = _mm_set1_ps(i);
        _mm_storeu_si128(
            (__m128i*)x,
            _mm_packs_epi32(
                _mm_cvtps_epi32(
                    _mm_div_ps(
                        _mm_cvtepi32_ps(_mm_unpacklo_epi16(xmm0, _mm_setzero_si128())),
                        xmm1
                    )
                ),
                _mm_cvtps_epi32(
                    _mm_div_ps(
                        _mm_cvtepi32_ps(_mm_unpackhi_epi16(xmm0, _mm_setzero_si128())),
                        xmm1
                    )
                )
            )
        );
    }
}

int main(){
    const unsigned runs = 40000000; // Choose a big number, so the compiler doesn't dare to unroll loops and optimize with constants
    test_div_x86(runs),
    test_div_sse(runs);
    return 0;
}

GNU Gprof 和工具参数的结果。

/*
gcc -O? -msse2 -pg -o test.o -c test.c
g++ -o test test.o -pg
test
gprof test.exe gmon.out
-----------------------------------
        test_div_sse(unsigned int)      test_div_x86(unsigned int)
-O0     2.26s                           1.10s
-O1     1.41s                           1.07s
-O2     0.95s                           1.09s
-O3     0.77s                           1.07s
*/

现在我很困惑，为什么 x86 测试几乎没有得到优化，而 SSE 测试却变得更快，尽管昂贵的浮点转换成本。此外，我想知道有多少结果取决于编译器和架构。

总结一下：到底哪个更快：一分一分还是浮点绕道？

【问题讨论】：

似乎unsigned short x[8] 在第一次测试中被修改了。所以第二个测试从不同的值开始。（而且所有x 的值似乎都很快转到0。）
操作持续时间不应受参数影响，编译器不应检测x何时为0。当我设置本地红利时没有区别，所以x 没关系。
你可以做得更好：你可以乘以被除数的模逆，而不是除法。这是编译器将通过编译时常量进行除法的操作，您也可以在运行时执行此操作，但需要做一些工作。
@Youka "操作持续时间不应该受参数影响" 我会说他们会这样做，至少在一般情况下是这样。例如。英特尔的一位指南说：““DIV/IDIV r64”的吞吐量随输入 RDX:RAX 中有效数字的数量而变化”。不过，我并不是说这对你来说很重要。

标签： c performance integer sse division

【解决方案1】：

将向量的所有元素除以相同的标量可以通过整数乘法和移位来完成。 libdivide（C/C++，zlib 许可证）提供了一些内联函数来为标量（例如int）和用标量划分向量。另请参阅SSE integer division?（正如您在问题中提到的那样）以获取类似的技术来给出近似结果。如果将相同的标量应用于大量向量，则效率更高。 libdivide 没有说结果不准确，但我没有调查。

回复：您的代码：当给它一个像这样的微不足道的循环时，你必须小心检查编译器实际产生的内容。例如它实际上是每次迭代都加载/存储回RAM吗？还是将变量保存在寄存器中，只在最后存储？

您的基准测试偏向于整数除法循环，因为向量除法器并未在向量循环中保持 100% 占用，但整数除法器在 int 循环中保持 100% 占用。（这些段落是在 cmets 讨论之后添加的。之前的答案没有解释太多关于保持分隔符和依赖链的内容。）

您的向量循环中只有一个依赖链，因此向量除法器在产生第二个结果后每次迭代都会空闲几个周期，而 convert fp->si、pack、unpack、convert si-> 的链fp 发生。您已经进行了设置，因此您的吞吐量受限于整个循环携带的依赖链的长度，而不是 FP 分隔符的吞吐量。如果每次迭代的数据是独立的（或者至少有几个独立的值，比如 int 循环有 8 个数组元素），那么一组值的解包/转换和转换/打包将与 @987654324 重叠@ 另一个向量的执行时间。矢量除法器仅部分流水线化，其他一切都流水线化。

这是吞吐量和延迟之间的区别，以及为什么它对流水线乱序执行 CPU 很重要。

代码中的其他内容：

您在内部循环中有__m128 xmm1 = _mm_set1_ps(i);。 _set1 的 arg 不是编译时常量，通常至少有 2 条指令：movd 和 pshufd。在这种情况下，也是一个整数到浮点数的转换。保持循环计数器的浮点向量版本，通过添加1.0 的向量来增加，会更好。（尽管这可能不会进一步影响您的速度测试，因为这种多余的计算可能会与其他东西重叠。）

使用零解包可以正常工作。 SSE4.1 __m128i _mm_cvtepi16_epi32 (__m128i a) 是另一种方式。 pmovsxwd 速度相同，但不需要归零寄存器。

如果您要转换为 FP 进行除法，您是否考虑过将数据保留为 FP 一段时间？取决于您的算法，您需要如何进行舍入。

最新 Intel CPU 的性能