【问题标题】:Load 2 contiguous doubles into low-half of 2 sse registers将 2 个连续的 double 加载到 2 个 sse 寄存器的低半部分
【发布时间】:2014-05-04 01:57:14
【问题描述】:

我想实现这个:

xmm0[0..63] = mem[0..63]
xmm0[64..127] = 0
xmm1[0..63] = mem[64..127]
xmm1[64..127] = 0

事实上,它不必完全像这样。没关系,只要:

xmm0[0..63] + xmm0[64..127] = mem[0..63]
xmm1[0..63] + xmm1[64..127] = mem[64..127]

我应该如何使用 xmm 内在函数来做到这一点?

【问题讨论】:

  • 我认为没有一条指令可以做到这一点。
  • @Anycorn 在多条指令中这样做的合理方法是什么?
  • 您可以只使用两个单独的movsd_mm_load_sd 内在)。或者,您可以将整个段加载到第一个寄存器中以聚合内存负载,然后将下部复制到第二个寄存器,然后将第一个寄存器中的下部归零。但这可能会更糟。

标签: assembly sse intrinsics


【解决方案1】:

我会简单地使用 _mm_set_pd_mm_set1_pd 内在函数,看看你的编译器生成了什么 - 它应该相当有效,如果不是那么生成的代码可能会让你知道如何更明确地改进它内在函数,例如:

double d[2];

__m128d v0 = _mm_set_pd(d[0], 0.0);
__m128d v1 = _mm_set_pd(d[1], 0.0);

或者,正如@Mysticial 和@Anycorn 所指出的,您可以只使用_mm_load_sd

double d[2];

__m128d v0 = _mm_load_sd(&d[0]);
__m128d v1 = _mm_load_sd(&d[1]);

【讨论】:

  • 是的,这可能是最好的解决方案 - 答案已更新。
  • 你的意思可能是_mm_load_sd(&d[0])
  • @Anycorn:谢谢 - 复制和粘贴太匆忙了 - 现已修复。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-11-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-09-08
相关资源
最近更新 更多