转移 __m128i 的最佳方式？答案

【问题标题】：The best way to shift a __m128i?转移 __m128i 的最佳方式？
【发布时间】：2015-12-27 07:01:23
【问题描述】：

我需要将 __m128i 变量（例如 v）移动 m 位，以使位在所有变量中移动（因此，结果变量表示 v*2^m）。最好的方法是什么？！

请注意，_mm_slli_epi64 分别移动 v0 和 v1：

r0 := v0 << count
r1 := v1 << count

所以 v0 的最后一位丢失了，但我想将这些位移动到 r1。

编辑：我在找一个代码，比这个更快（m

r0 = v0 << m;
r1 = v0 >> (64-m);
r1 ^= v1 << m;
r2 = v1 >> (64-m);

【问题讨论】：

如果 m 恰好是 8 位的倍数并且您拥有 SSSE3，那么您很幸运：palignr。如果没有，它会很快变得丑陋，你真的真的需要做转变、AND、洗牌和 OR。
见stackoverflow.com/questions/9980801/…
您是在处理比特流，还是算术变量（整数、浮点数等）？
@user0，我要提出的答案没有任何用处，对不起。
如果不用SSE，shld+sal也不错。

标签： c bitwise-operators sse bit-shift sse2

【解决方案1】：

对于编译时常量移位计数，您可以获得相当好的结果。否则不是真的。

这只是您问题中r0 / r1 代码的 SSE 实现，因为没有其他明显的方法可以做到这一点。可变计数移位仅适用于向量元素内的移位，而不适用于整个寄存器的字节移位。因此，我们只需将低 64 位提升到高 64 位，并使用可变计数移位将它们放在正确的位置。

// untested
#include <immintrin.h>

/* some compilers might choke on slli / srli with non-compile-time-constant args
 * gcc generates the   xmm, imm8 form with constants,
 * and generates the   xmm, xmm  form with otherwise.  (With movd to get the count in an xmm)
 */

// doesn't optimize for the special-case where count%8 = 0
// could maybe do that in gcc with if(__builtin_constant_p(count)) { if (!count%8) return ...; }
__m128i mm_bitshift_left(__m128i x, unsigned count)
{
    __m128i carry = _mm_bslli_si128(x, 8);   // old compilers only have the confusingly named _mm_slli_si128 synonym
    if (count >= 64)
        return _mm_slli_epi64(carry, count-64);  // the non-carry part is all zero, so return early
    // else
    carry = _mm_srli_epi64(carry, 64-count);  // After bslli shifted left by 64b

    x = _mm_slli_epi64(x, count);
    return _mm_or_si128(x, carry);
}

__m128i mm_bitshift_left_3(__m128i x) { // by a specific constant, to see inlined constant version
    return mm_bitshift_left(x, 3);
}
// by a specific constant, to see inlined constant version
__m128i mm_bitshift_left_100(__m128i x) { return mm_bitshift_left(x, 100);  }

我认为这会不如实际方便。 _mm_slli_epi64 适用于 gcc/clang/icc，即使计数不是编译时常量（从整数 reg 生成 movd 到 xmm reg）。有一个_mm_sll_epi64 (__m128i a, __m128i count)（注意缺少i），但至少现在，i 内在函数可以生成psllq 的任何一种形式。

编译时常量计数版本相当高效，compiling to 4 instructions（或 5 个不带 AVX）：

mm_bitshift_left_3(long long __vector(2)):
        vpslldq xmm1, xmm0, 8
        vpsrlq  xmm1, xmm1, 61
        vpsllq  xmm0, xmm0, 3
        vpor    xmm0, xmm0, xmm1
        ret

Performance:

这在 Intel SnB/IvB/Haswell 上具有 3 个周期延迟 (vpslldq(1) -> vpsrlq(1) -> vpor(1))，吞吐量限制为每 2 个周期一个（使端口上的向量移位单元饱和0)。字节移位在不同端口上的随机播放单元上运行。立即数向量移位都是单 uop 指令，因此当与其他代码混合时，这只是 4 个融合域 uop 占用了流水线空间。（可变计数向量移位是 2 uop，2 个周期延迟，因此该函数的可变计数版本比从计数指令中看起来要差。）

或计数 >= 64：

mm_bitshift_left_100(long long __vector(2)):
        vpslldq xmm0, xmm0, 8
        vpsllq  xmm0, xmm0, 36
        ret

如果你的移位计数不是一个编译时常量，你必须在 count > 64 上进行分支，以确定是左移还是右移进位。我相信移位计数被解释为无符号整数，因此负计数是不可能的。

还需要额外的指令才能将int 计数和 64 计数放入向量寄存器。使用向量比较和混合指令以无分支方式执行此操作可能是可能的，但分支可能是个好主意。

GP 寄存器中__uint128_t 的可变计数版本看起来相当不错；优于 SSE 版本。 Clang does a slightly better job than gcc, emitting fewer mov instructions，但它仍然使用两个 cmov 指令来处理计数 >= 64 的情况。（因为 x86 整数移位指令会屏蔽计数，而不是饱和。）

__uint128_t leftshift_int128(__uint128_t x, unsigned count) {
    return x << count;  // undefined if count >= 128
}

【讨论】：

非常感谢。不幸的是 count 不是编译时常量。不过我会测试这两个建议。
根据我的测试，我由 4 个int64_t vars 编写的旧代码对于随机生成的count 更快（> 2 倍）；但是对于编译时常量count，mm_bitshift_left 至少要快 1.5 倍。
@user0：我并不感到惊讶。在一个真正的应用程序中，我希望轮班计数有一点可预测性。此外，您的 microbench 是否测试了只是转变，还是将转变作为两个其他向量内在函数之间的操作进行了测试？在这种情况下，int64_t shift 必须将值从向量获取到 GP regs 并返回。（我想我在回答中说过，如果您的数据还没有在向量 regs 中，__uint128 shift（或者它与int64_t 的手写等效项）应该会很好。）
只为换档操作测量时间。我要测试__uint128。
是的！ __uint128 比其他人更快。对于随机count，它至少比int64_t 方法快1.5 倍。但似乎有些机器不支持 128 个整数。

【解决方案2】：

在 SSE4.A 中，指令 insrq 和 extrq 可用于一次通过 __mm128i 移位（和旋转）1-64 位。与 8/16/32/64 位对应 pextrN/pinsrX 不同，这些指令在 0 到 127 的任何位偏移处选择或插入 m 位（1 到 64 之间）。需要注意的是长度和偏移量之和不得超过128.

【讨论】：

请查看修改后的答案。正确的指令中没有 p。
最大的警告似乎是它只有 AMD。