【问题标题】:SIMD SSE2 __m128i contains 4 int32_t how to quickly find each integer that bigger or small than 0SIMD SSE2 __m128i 包含 4 个 int32_t 如何快速找到每个大于或小于 0 的整数
【发布时间】:2014-01-13 03:34:14
【问题描述】:

我使用 SIMD 进行算术运算,结果在一个包含 4 x int32_t__m128i 变量中。 我怀疑结果中的前两个int32_t 值>=0,后两个值

__m128i result {int32_t, int32_t, int32_t, int32_t}

我怀疑结果{>=0,>=0,<=0,<=0}

最有效的方法是什么?

【问题讨论】:

    标签: c x86 sse simd sse2


    【解决方案1】:

    目前尚不清楚您是希望在 XMM 寄存器中为某些屏蔽做准备,还是在 GPR 寄存器中为例如分支做准备。

    备选方案 1

    这可能是一种更灵活的替代方案,因为它在 XMM 寄存器中留下了掩码,并且从那里到 GPR 只需一个 PMOVMSKB 距离。然而,它确实需要两个 128 位常量。

    这是一种简单的方法:在顶部比较 > -1 aka >= 0 并在底部给出不可能的比较,然后在底部比较

    __m128i result;
    /* ... */
    __m128i TOP  = _mm_set_epi32(0xFFFFFFFF, 0xFFFFFFFF, 0x7FFFFFFF, 0x7FFFFFFF);
    __m128i BOT  = _mm_set_epi32(0x80000000, 0x80000000, 0x00000001, 0x00000001);
    __m128i cmpT = _mm_cmpgt_epi32(result, TOP);//Top    > -1   Bottom > INT_MAX
    __m128i cmpB = _mm_cmpgt_epi32(BOT, result);//Bottom <  1,  Top    < INT_MIN
    __m128i cmp  = _mm_or_si128(cmpT, cmpB);
    int cond     = _mm_movemask_epi8(cmp) == 0xFFFF;
    /* cond contains the result of the comparison:
          0 if check failed and
          1 if check satisfied.                    */
    

    备选方案 2

    我在原始值和它的 PSUBD 否定上都利用了 PMOVMSKB,然后检查了两个返回的位掩码的正确位是否正确。

    __m128i result;
    /* ... */
    __m128i ZERO = _mm_setzero_si128();            /* 0 constant */
    __m128i neg  = _mm_sub_epi32(ZERO, result);    /* Negate */
    int lt0      = _mm_movemask_epi8(result);      /* < 0 ? */
    int gt0      = _mm_movemask_epi8(neg);         /* > 0 ? */
    gt0         &= ~lt0;                           /* Correction for INT_MIN. Can be
                                                      deleted if never encountered. */
    int cond     = !((gt0 | (lt0 >> 8)) & 0x88);   /* Check both bits 3 and 7 are 0 */
    /* cond contains the result of the comparison:
          0 if check failed and
          1 if check satisfied.                    */
    

    我的解释:

    • 我否定整数。
    • 我从整数中提取符号位lt0。它们代表条件result[i] &lt; 0
    • 我从否定中提取符号位gt0。它们表示条件result[i] &gt; 0,但result[i] 是否为INT_MIN 除外。
      • 可选:我通过检测并纠正这种情况来纠正这种情况(gt0 &amp;= ~lt0 将任何错误报告设置为 0,即 -2147483648 大于 0)。
    • 然后,我检查以下所有条件是否成立:
      • gt0 的第 3 位为 0。隐含 result[0] &lt;= 0
      • gt0 的第 7 位为 0。隐含 result[1] &lt;= 0
      • lt0 的第 11 位为 0。隐含 result[2] &gt;= 0
      • lt0 的第 15 位为 0。隐含 result[3] &gt;= 0

    我们查看位 3、7、11 和 15 是有原因的,我们使用神奇的 8 和 0x88 常量也是有原因的。就是 PMOVMSKB 每个字节返回一个符号位,而不是每个 dword 一个符号位,所以我们真正感兴趣的位被我们必须忽略的垃圾位包围,只有每个整数的最高字节的符号位感兴趣我们。

    总共需要 9-10 条指令来运行检查。

    【讨论】:

      猜你喜欢
      • 2013-10-24
      • 2014-08-29
      • 2017-04-15
      • 1970-01-01
      • 2013-04-04
      • 1970-01-01
      • 1970-01-01
      • 2021-04-21
      • 2014-12-20
      相关资源
      最近更新 更多