为什么 cmp 指令花费太多时间？答案

【问题标题】：Why does cmp instruction cost too much time?为什么 cmp 指令花费太多时间？
【发布时间】：2020-09-21 11:03:24
【问题描述】：

我正在尝试使用 libunwind（使用 linux perf）进行配置，perf top 监控目标进程，我得到了这个组装时间成本屏幕：

  0.19 │       mov    %rcx,0x18(%rsp)                                                                                                                                    ▒
       │     trace_lookup():                                                                                                                                             ▒
  1.54 │       mov    0x8(%r9),%rcx                                                                                                                                      ▒
       │     _ULx86_64_tdep_trace():                                                                                                                                     ▒
  0.52 │       and    $0x1,%edx                                                                                                                                          ◆
  0.57 │       mov    %r14d,0xc(%rsp)                                                                                                                                    ▒
  0.40 │       mov    0x78(%rsp),%r10                                                                                                                                    ▒
  1.24 │       sub    %rdx,%r15                                                                                                                                          ▒
       │     trace_lookup():                                                                                                                                             ▒
  0.35 │       shl    %cl,%r12d                                                                                                                                          ▒
       │     _ULx86_64_tdep_trace():                                                                                                                                     ▒
  2.18 │       mov    0x90(%rsp),%r8                                                                                                                                     ▒
       │     trace_lookup():                                                                                                                                             ▒
  0.46 │       imul   %r15,%r13                                                                                                                                          ▒
       │     _ULx86_64_tdep_trace():                                                                                                                                     ▒
  0.59 │       mov    %r15,0x88(%rsp)                                                                                                                                    ▒
       │     trace_lookup():                                                                                                                                             ▒
  0.50 │       lea    -0x1(%r12),%rdx                                                                                                                                    ▒
  1.22 │       shr    $0x2b,%r13                                                                                                                                         ▒
  0.37 │       and    %r13,%rdx                                                                                                                                          ▒
  0.57 │177:   mov    %rdx,%rbp                                                                                                                                          ▒
  0.43 │       shl    $0x4,%rbp                                                                                                                                          ▒
  1.33 │       add    %rdi,%rbp                                                                                                                                          ▒
  0.49 │       mov    0x0(%rbp),%rsi                                                                                                                                     ▒
 24.40 │       cmp    %rsi,%r15                                                                                                                                          ▒
       │     ↓ jne    420                                                                                                                                                ▒
       │     _ULx86_64_tdep_trace():                                                                                                                                     ▒
  2.10 │18e:   movzbl 0x8(%rbp),%edx                                                                                                                                     ▒
  3.68 │       test   $0x8,%dl                                                                                                                                           ▒
       │     ↓ jne    370                                                                                                                                                ▒
  1.27 │       mov    %edx,%eax                                                                                                                                          ▒
  0.06 │       shl    $0x5,%eax                                                                                                                                          ▒
  0.73 │       sar    $0x5,%al                                                                                                                                           ▒
  1.70 │       cmp    $0xfe,%al                                                                                                                                          ▒
       │     ↓ je     380                                                                                                                                                ▒
  0.01 │     ↓ jle    2f0                                                                                                                                                ▒
  0.01 │       cmp    $0xff,%al                                                                                                                                          ▒
       │     ↓ je     3a0                                                                                                                                                ▒
  0.02 │       cmp    $0x1,%al                                                                                                                                           ▒
       │     ↓ jne    298                                                                                                                                                ▒
  0.01 │       and    $0x10,%edx                                                                                                                                         ▒
       │       movl   $0x1,0x10(%rsp)                                                                                                                                    ▒
       │       movl   $0x1,0x1c8(%rbx)                                                                                                                                   ▒
  0.00 │     ↓ je     393

对应的源码在这里trace_lookup source code，如果我没看错的话，这条热路径cmp指令对应的代码行数是296行，但是不知道为什么这行这么慢而且大部分时间都花费？

【问题讨论】：

你能把控制台里的文字复制过来粘贴到这里吗？
@phuclv 感谢您的建议，您能回答这个问题吗？
因为它是第一条使用前面mov指令从内存中加载的值的指令。
@EOF 那么是缓存未命中造成的吗？我正在考虑是否有可能改进它？我记得我们至少可以减少哈希表存储桶中第一项的缓存未命中。
是你使用libunwind的进程吗？你的程序的任务是什么？ perf top 命令是什么？有时在默认的perf top 输出中很容易将注意力集中在错误的进程上，例如性能本身或错误的函数。

标签： x86-64 profiler perf libunwind

【解决方案1】：

命令cmp %rsi,%r15 被标记为具有巨大开销，因为它等待mov 0x0(%rbp),%rsi 命令从缓存或内存中加载数据。该命令可能存在 L1 甚至 L2 缓存未命中。

代码片段

       │     trace_lookup():
  0.50 │       lea    -0x1(%r12),%rdx
  1.22 │       shr    $0x2b,%r13     
  0.37 │       and    %r13,%rdx      
  0.57 │177:   mov    %rdx,%rbp      
  0.43 │       shl    $0x4,%rbp      
  1.33 │       add    %rdi,%rbp      
  0.49 │       mov    0x0(%rbp),%rsi 
 24.40 │       cmp    %rsi,%r15      
       │     ↓ jne    420

您有 24% 的当前函数的分析事件归因于 cmp 指令。采样分析的默认事件是“cycles”（CPU 时钟周期的硬件事件）或“cpu-clock”（线性时间的软件事件）。因此，在此 cmp 命令的指令地址中报告了大约 24% 的确实中断此功能的采样中断。性能分析和现代无序 CPU 可能存在系统偏差，当报告的成本不是针对运行缓慢的命令，而是针对没有快速完成执行（退出）的命令时。如果 %rsi 寄存器值不等于 %r15 寄存器值，这个 cmp+jne 命令对（融合 uop）将改变程序的指令流。古时候这样的命令应该只是读取两个寄存器并比较它们的值，速度很快，不应该占用函数执行时间的 1/4。但是现代 CPU 寄存器不仅仅是存储值的 32 位或 64 位位置，它们还有一些用于乱序引擎的隐藏标志（或重命名技术）。在您的示例中，mov 0x0(%rbp),%rsi 确实更改了 %rsi 寄存器。该命令通过地址 *%rbp 从内存中加载。 CPU 确实开始将此加载到缓存/内存子系统并将 %rsi 寄存器标记为“从内存加载挂起”，继续执行指令。有可能下一条指令不需要该负载的结果（这需要一些时间，例如Haswell：L1 命中需要 4 个 CPU 周期，L2 命中需要 12 个 CPU 周期，L3 命中需要 36-66 个 CPU 周期，以及额外的 50-100 个ns 用于缓存未命中和 RAM 读取）。但是在您的情况下，下一条指令是从 %rsi 读取的 cmp+jne，并且在将内存中的数据写入 %rsi 之前，该指令无法完成（CPU 可能会在 cmp+jne 执行过程中阻塞或多次重启该命令）。因此， cmp 有 24% 的开销，因为 mov 确实错过了最近的缓存。使用更高级的计数器，您可以估计它确实错过了哪个缓存，以及哪个缓存/内存层最常为请求提供服务。

对应的源码在这里是trace_lookup源码，如果我没看错的话，这条热路径cmp指令对应的代码行数是296行，但是不知道为什么这行这么慢，成本最高时间？

asm 片段如此短，很难在 trace_lookup 的源代码中找到相应的代码行，也很难找到 L1/L2 缓存中没有的值和原因。您应该尝试编写简短的可重现示例。

【讨论】：