ISO C++ 没有定义__m256,所以我们需要看看是什么在支持它们的实现上定义了它们的行为。
Intel 的内部函数将矢量指针(如 __m256*)定义为允许为其他任何东西设置别名,就像 ISO C++ 将 char* 定义为允许使用别名一样。
所以是的,取消引用 __m256* 而不是使用 _mm256_load_ps() 对齐加载内在函数是安全的。
但特别是对于 float/double,使用内部函数通常更容易,因为它们也负责从 float* 进行转换。对于整数,AVX512 加载/存储内在函数被定义为采用 void*,但在此之前您需要一个额外的 (__m256i*),这只是很多混乱。
在 gcc 中,这是通过使用 may_alias 属性定义 __m256 来实现的:来自 gcc7.3 的 avxintrin.h(<immintrin.h> 包括的标头之一):
/* The Intel API is flexible enough that we must allow aliasing with other
vector types, and their scalar components. */
typedef float __m256 __attribute__ ((__vector_size__ (32),
__may_alias__));
typedef long long __m256i __attribute__ ((__vector_size__ (32),
__may_alias__));
typedef double __m256d __attribute__ ((__vector_size__ (32),
__may_alias__));
/* Unaligned version of the same types. */
typedef float __m256_u __attribute__ ((__vector_size__ (32),
__may_alias__,
__aligned__ (1)));
typedef long long __m256i_u __attribute__ ((__vector_size__ (32),
__may_alias__,
__aligned__ (1)));
typedef double __m256d_u __attribute__ ((__vector_size__ (32),
__may_alias__,
__aligned__ (1)));
(如果您想知道,这就是为什么取消引用 __m256* 就像 _mm256_store_ps,而不是 storeu。)
没有 may_alias 的 GNU C 原生向量可以为其标量类型设置别名,例如即使没有may_alias,您也可以安全地在float* 和假设的v8sf 类型之间进行转换。但是may_alias 可以安全地从int[]、char[] 或其他数组中加载。
我在谈论 GCC 如何实现英特尔的内在函数只是因为那是我所熟悉的。我从 gcc 开发人员那里听说,他们之所以选择该实现,是因为它是与 Intel 兼容所必需的。
需要定义英特尔内部函数的其他行为
为_mm_storeu_si128( (__m128i*)&arr[i], vec); 使用英特尔的 API 需要您创建潜在未对齐的指针,如果您尊重它们就会出错。而_mm_storeu_ps 到非 4 字节对齐的位置需要创建一个未对齐的 float*。
只是创建未对齐的指针,或对象外的指针,在 ISO C++ 中是 UB,即使你不取消引用它们。我猜这允许在异国情调的实现在创建指针时(可能而不是取消引用时)对指针进行某种检查的硬件,或者可能无法存储指针的低位的硬件。 (我不知道是否存在任何特定硬件,因为这个 UB 可以实现更高效的代码。)
但支持 Intel 内在函数的实现必须定义行为,至少对于 __m* 类型和 float*/double*。这对于针对任何普通现代 CPU 的编译器来说都是微不足道的,包括具有平面内存模型(无分段)的 x86; asm 中的指针只是与数据保存在同一寄存器中的整数。 (m68k 有地址与数据寄存器,但它永远不会因为在 A 寄存器中保留不是有效地址的位模式而出错,只要您不取消引用它们。)
另辟蹊径:向量的元素访问。
请注意,may_alias 与 char* 别名规则一样,只有一种方式:不保证使用 int32_t* 读取是安全的一个__m256。使用float* 读取__m256 甚至可能不安全。就像 char buf[1024]; int *p = (int*)buf; 不安全一样。
通过char* 读取/写入可以给任何东西起别名,但是当您拥有char object 时,严格别名确实可以使其通过其他类型读取它。 (我不确定 x86 上的主要实现是否确实定义了该行为,但您不需要依赖它,因为它们将 4 个字节的 memcpy 优化为 int32_t。您可以并且应该使用 @987654366 @ 表示来自char[] 缓冲区的未对齐负载,因为允许具有更宽类型的自动矢量化假定int16_t* 的2 字节对齐,如果不是则使代码失败:Why does unaligned access to mmap'ed memory sometimes segfault on AMD64?)
要插入/提取向量元素,请使用 shuffle 内在函数,SSE2 _mm_insert_epi16 / _mm_extract_epi16 或 SSE4.1 insert / _mm_extract_epi8/32/64。对于浮点数,没有应与标量 float 一起使用的插入/提取内在函数。
或存储到数组并读取数组。 (print a __m128i variable)。这确实优化了向量提取指令。
GNU C 向量语法为向量提供[] 运算符,例如__m256 v = ...; v[3] = 1.25;。 MSVC 将向量类型定义为具有 .m128_f32[] 成员的联合,用于每个元素的访问。
有像 Agner Fog's (GPL licensed) Vector Class Library 这样的包装库,它们为其向量类型提供可移植的 operator[] 重载,以及运算符 + / - / * / << 等等。这非常好,特别是对于具有不同元素宽度的不同类型的整数类型,v1 + v2 可以使用正确的大小。 (GNU C 原生向量语法对浮点/双精度向量执行此操作,并将 __m128i 定义为有符号 int64_t 的向量,但 MSVC 不提供基于 __m128 类型的运算符。)
您还可以在向量和某种类型的数组之间使用联合类型双关语,这在 ISO C99 和 GNU C++ 中是安全的,但在 ISO C++ 中不安全。我认为它在 MSVC 中也是官方安全的,因为我认为他们将 __m128 定义为普通联合的方式。
但不能保证您会从任何这些元素访问方法中获得高效代码。不要在内部循环中使用,如果性能很重要,请查看生成的 asm。