将 SSE 转换为 Neon：如何打包然后提取 32 位结果答案

【问题标题】：Translating SSE to Neon: How to pack and then extract 32bit result将 SSE 转换为 Neon：如何打包然后提取 32 位结果
【发布时间】：2015-05-23 22:21:54
【问题描述】：

我必须将以下指令从 SSE 翻译成 Neon

 uint32_t a = _mm_cvtsi128_si32(_mm_shuffle_epi8(a,SHUFFLE_MASK) );

地点：

static const __m128i SHUFFLE_MASK = _mm_setr_epi8(3,  7,  11, 15, -1, -1, -1, -1,
                                                  -1, -1, -1, -1, -1, -1, -1, -1);

所以基本上我必须从寄存器中取出第 4、8、12 和 16 个字节并将其放入uint32_t。看起来像是一个打包指令（在 SSE 中我似乎记得我使用了 shuffle，因为它与打包相比节省了一条指令，this example 显示了打包指令的使用）。

这个操作如何在 Neon 中翻译？
我应该使用打包指令吗？
然后我如何提取 32 位？（有没有相当于_mm_cvtsi128_si32的东西？）

编辑：
首先，vgetq_lane_u32 应该允许替换 _mm_cvtsi128_si32 （但我必须将我的 uint8x16_t 转换为 uint32x4_t）

uint32_t  vgetq_lane_u32(uint32x4_t vec, __constrange(0,3) int lane);

或直接存储车道vst1q_lane_u32

void  vst1q_lane_u32(__transfersize(1) uint32_t * ptr, uint32x4_t val, __constrange(0,3) int lane); // VST1.32 {d0[0]}, [r0]

【问题讨论】：

software.intel.com/en-us/blogs/2012/12/12/… 检查他们库的来源。
是的，我已经看到了。但它是反过来移植的指南......

标签： c++ arm sse neon intrinsics

【解决方案1】：

我找到了this excellent guide。我正在努力，似乎我的操作可以用一条 VTBL 指令（查表）来完成，但我会用 2 条去交错操作来实现它，因为目前它看起来更简单。

uint8x8x2_t   vuzp_u8(uint8x8_t a, uint8x8_t b);

比如：

uint8x16_t a;
uint8_t* out;
[...]

//a = 138 0 0 0 140 0 0 0 146 0 0 0 147 0 0 0

a = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
//a = 138 0 140 0 146 0 147 0 0 0 0 0 0 0 0 0

a = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
//a = 138 140 146 147 0 0 0 0 0 0 0 0 0 0 0 0

vst1q_lane_u32(out,a,0);

最后一个不使用__attribute__((optimize("lax-vector-conversions")))发出警告

但是，因为数据转换，这2个赋值是不可能的。一种解决方法是这样的（编辑：这违反了严格的别名规则！编译器可以假设a在分配d的地址时不会改变。）：

uint8x8x2_t* d = (uint8x8x2_t*) &a;
*d = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
*d = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
vst1q_lane_u32(out,a,0);

我已经通过灵活的数据类型实现了more general workaround：

NeonVectorType<uint8x16_t> a; //a can be used as a uint8x16_t, uint8x8x2_t, uint32x4_t, etc.
a = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
a = vuzp_u8(vget_low_u8(a), vget_high_u8(a) );
vst1q_lane_u32(out,a,0);

编辑：

这是带有随机掩码/查找表的版本。它确实使我的内部循环更快一点。同样，我使用了here 描述的数据类型。

static const uint8x8_t MASK = {0x00,0x04,0x08,0x0C,0xff,0xff,0xff,0xff};
NeonVectorType<uint8x16_t> a; //a can be used as a uint8x16_t, uint8x8x2_t, uint32x4_t, etc.
NeonVectorType<uint8x8_t> res; //res can be used as uint8x8_t, uint32x2_t, etc.
[...]
res = vtbl2_u8(a, MASK);
vst1_lane_u32(out,res,0);

【讨论】：

提供了 vreinterpret_* 内在函数以避免指针转换的需要。

【解决方案2】：

我会这样写：

uint32_t extract (uint8x16_t x)
{
  uint8x8x2_t a = vuzp_u8 (vget_low_u8 (x), vget_high_u8 (x));
  uint8x8x2_t b = vuzp_u8 (a.val[0], a.val[1]);
  return vget_lane_u32 (vreinterpret_u32_u8 (b.val[0]), 0);
}

在最近的 GCC 版本上编译为：

extract:
    vuzp.8  d0, d1
    vuzp.8  d0, d1
    vmov.32 r0, d0[0]
    bx  lr

【讨论】：

你的版本更加尊重数据类型:)