Java Math.abs(int) 优化，为什么这段代码慢了 6 倍？答案

【问题标题】：Java Math.abs(int) optimizations, why this code 6x times slower?Java Math.abs(int) 优化，为什么这段代码慢了 6 倍？
【发布时间】：2020-01-18 06:59:48
【问题描述】：

如您所知，Math.abs(Integer.MIN_VALUE) == Integer.MIN_VALUE 为防止出现负值，我的项目中实现了safeAbs 方法：

    public static int safeAbs(int i) {
        i = Math.abs(i);

        return i < 0 ? 0 : i;
    }

我将性能与以下性能进行了比较：

    public static int safeAbs(int i) {
        return i == Integer.MIN_VALUE ? 0 : Math.abs(i);
    }

第一个几乎比第二个慢 6 倍（第二个性能几乎与“纯”Math.abs(int) 相同）。从我的角度来看，字节码没有显着差异，但我猜JIT“汇编”代码中存在差异：

“慢”版本：

  0x00007f0149119720: mov     %eax,0xfffffffffffec000(%rsp)
  0x00007f0149119727: push    %rbp
  0x00007f0149119728: sub     $0x20,%rsp
  0x00007f014911972c: test    %esi,%esi
  0x00007f014911972e: jl      0x7f0149119734
  0x00007f0149119730: mov     %esi,%eax
  0x00007f0149119732: jmp     0x7f014911973c
  0x00007f0149119734: neg     %esi
  0x00007f0149119736: test    %esi,%esi
  0x00007f0149119738: jl      0x7f0149119748
  0x00007f014911973a: mov     %esi,%eax
  0x00007f014911973c: add     $0x20,%rsp
  0x00007f0149119740: pop     %rbp
  0x00007f0149119741: test    %eax,0x1772e8b9(%rip)  ;   {poll_return}
  0x00007f0149119747: retq
  0x00007f0149119748: mov     %esi,(%rsp)
  0x00007f014911974b: mov     $0xffffff65,%esi
  0x00007f0149119750: nop
  0x00007f0149119753: callq   0x7f01490051a0    ; OopMap{off=56}
                                                ;*ifge
                                                ; - math.FastAbs::safeAbsSlow@6 (line 16)
                                                ;   {runtime_call}
  0x00007f0149119758: callq   0x7f015f521d20    ;   {runtime_call}

“正常”版本：

  # {method} {0x00007f31acf28cd8} 'safeAbsFast' '(I)I' in 'math/FastAbs'
  # parm0:    rsi       = int
  #           [sp+0x30]  (sp of caller)
  0x00007f31b08c7360: mov     %eax,0xfffffffffffec000(%rsp)
  0x00007f31b08c7367: push    %rbp
  0x00007f31b08c7368: sub     $0x20,%rsp
  0x00007f31b08c736c: cmp     $0x80000000,%esi
  0x00007f31b08c7372: je      0x7f31b08c738e
  0x00007f31b08c7374: mov     %esi,%r10d
  0x00007f31b08c7377: neg     %r10d
  0x00007f31b08c737a: test    %esi,%esi
  0x00007f31b08c737c: mov     %esi,%eax
  0x00007f31b08c737e: cmovl   %r10d,%eax
  0x00007f31b08c7382: add     $0x20,%rsp
  0x00007f31b08c7386: pop     %rbp
  0x00007f31b08c7387: test    %eax,0x162c2c73(%rip)  ;   {poll_return}
  0x00007f31b08c738d: retq
  0x00007f31b08c738e: mov     %esi,(%rsp)
  0x00007f31b08c7391: mov     $0xffffff65,%esi
  0x00007f31b08c7396: nop
  0x00007f31b08c7397: callq   0x7f31b07b11a0    ; OopMap{off=60}
                                                ;*if_icmpne
                                                ; - math.FastAbs::safeAbsFast@3 (line 17)
                                                ;   {runtime_call}
  0x00007f31b08c739c: callq   0x7f31c5863d20    ;   {runtime_call}

基准代码：

@BenchmarkMode(Mode.AverageTime)
@Fork(value = 1, jvmArgsAppend = {"-Xms3g", "-Xmx3g", "-server"})
@OutputTimeUnit(TimeUnit.NANOSECONDS)
@State(Scope.Benchmark)
@Threads(1)
@Warmup(iterations = 10)
@Measurement(iterations = 10)
public class SafeAbsMicroBench {

    @State(Scope.Benchmark)
    public static class Data {
        final int len = 10_000_000; 

        final int[] values = new int[len];

        @Setup(Level.Trial)
        public void setup() {
            // preparing 10 million random integers without MIN_VALUE
            for (int i = 0; i < len; i++) {
                int val;

                do {
                    val = ThreadLocalRandom.current().nextInt();
                } while (val == Integer.MIN_VALUE);

                values[i] = val;
            }
        }
    }

    @Benchmark
    public int safeAbsSlow(Data data) {
        int sum = 0;

        for (int i = 0; i < data.len; i++)
            sum += safeAbsSlow(data.values[i]);

        return sum;
    }

    @Benchmark
    public int safeAbsFast(Data data) {
        int sum = 0;

        for (int i = 0; i < data.len; i++)
            sum += safeAbsFast(data.values[i]);

        return sum;
    }

    private int safeAbsSlow(int i) {
        i = Math.abs(i);

        return i < 0 ? 0 : i;
    }

    private int safeAbsFast(int i) {
        return i == Integer.MIN_VALUE ? 0 : Math.abs(i);
    }

    public static void main(String[] args) throws RunnerException {
        final Options options = new OptionsBuilder()
            .include(SafeAbsMicroBench.class.getSimpleName())
            .build();

        new Runner(options).run();
    }
}

结果（Linux x86-64、7820HQ，在 oracle jdk 8 和 11 上检查，结果非常相似）。

Benchmark                      Mode  Cnt         Score        Error  Units
SafeAbsMicroBench.safeAbsFast  avgt   10   6435155.516 ±  47130.767  ns/op
SafeAbsMicroBench.safeAbsSlow  avgt   10  35646411.744 ± 776173.621  ns/op

谁能解释为什么第一个代码比第二个慢很多？

【问题讨论】：

“正常”版本在“慢”版本分支的地方有一个 cmov，但它们在返回下方都有一些神秘的分支，这是什么意思？
谢谢你指点CMOV，但我不完全明白你在问什么，我不是汇编专家，为了简单起见，我只复制了编译方法中看起来不同的那些部分- 如有必要，我可以扩展它，但在我看来，每个人都可以自己“打印汇编”。
不相关，但Integer.MAX_VALUE 不是abs(Integer.MIN_VALUE) 的更好替代品吗？当然，它已经关闭了 1，但这仍然比关闭 2147483648 更好......
@tobias_k well 0 是您可以获得的最小绝对值。这在语义上 0 似乎是不错的选择...
通过查看代码和程序集，“天真的”答案是： 1. 在“慢”的情况下，abs 函数被调用总是，该程序集包含“更多”跳转指令（用于abs 本身和随后的比较）。 2. 在“快速”的情况下，只有一个跳转，这会检查一个准确的值，并且这个跳转在测试中从不（！）执行（yadda -yadda-branch-prediction-maybe...？）。所以在快速的情况下，它只是遍历一个指令列表，而在慢速的情况下，它必须跳得更多。在测试中添加 500 万 MIN_VALUEs 可能会很有趣...

标签： java performance x86-64 jit

【解决方案1】：

safeAbsSlow 和 safeAbsFast 方法生成的本机代码有所不同。

safeAbsSlow（C2，4级）：

0x0000023d12ec4b14: add     eax,ecx
0x0000023d12ec4b16: inc     ebx

0x0000023d12ec4b18: cmp     ebx,989680h
0x0000023d12ec4b1e: jnl     23d12ec4b4eh ; jump if `ebx` was not less than `10_000_000`

0x0000023d12ec4b20: mov     ecx,dword ptr [r9+rbx*4+10h]

0x0000023d12ec4b25: test    ecx,ecx
0x0000023d12ec4b27: jnl     23d12ec4b14h ; jump if `ecx` was not less-than `0`

0x0000023d12ec4b29: neg     ecx

0x0000023d12ec4b2b: test    ecx,ecx
0x0000023d12ec4b2d: jnl     23d12ec4b14h ; jump if `ecx` was not less-than `0`

safeAbsFast（C2，4级）：

0x000001d89e8a4b20: mov     ecx,dword ptr [r9+rdi*4+10h]

0x000001d89e8a4b25: cmp     ecx,80000000h
0x000001d89e8a4b2b: je      1d89e8a4b66h ; jump if `ecx` was equal to `2147483648`

0x000001d89e8a4b2d: mov     r11d,ecx
0x000001d89e8a4b30: neg     r11d
0x000001d89e8a4b33: test    ecx,ecx
0x000001d89e8a4b35: cmovl   ecx,r11d

0x000001d89e8a4b39: add     eax,ecx
0x000001d89e8a4b3b: inc     edi

0x000001d89e8a4b3d: cmp     edi,989680h
0x000001d89e8a4b43: jl      1d89e8a4b20h ; jump if `edi` was less than `10_000_000`

从上面我们可以看出，safeAbsSlow 比safeAbsFast 有更多的条件跳转。

这尤其是因为内联到 safeAbsFast 的 Math.abs 实现没有条件跳转：

0x000001d89e8a4b2d: mov     r11d,ecx
0x000001d89e8a4b30: neg     r11d
0x000001d89e8a4b33: test    ecx,ecx
0x000001d89e8a4b35: cmovl   ecx,r11d

因此，当数据集具有分散在数组中的正值和负值时，与 normal 版本相比，slow 版本中有更多的分支未命中。以下是使用perf Linux 分析器收集的相应统计信息：

Benchmark                          Mode  Cnt          Score         Error  Units
safeAbsFast                        avgt   10    9611659.726 ± 1429082.431  ns/op
safeAbsFast:branch-misses          avgt            2869.853                 #/op
safeAbsFast:branches               avgt        12492918.020                 #/op
safeAbsFast:cycles                 avgt        28212203.936                 #/op
safeAbsFast:instructions           avgt        92352048.153                 #/op
safeAbsSlow                        avgt   10   44524180.366 ± 6324887.086  ns/op
safeAbsSlow:branch-misses          avgt         5006493.144                 #/op
safeAbsSlow:branches               avgt        17496069.911                 #/op
safeAbsSlow:cycles                 avgt       126413171.674                 #/op
safeAbsSlow:instructions           avgt        67549877.558                 #/op

相比之下，这是排序数据集的结果：

Benchmark                          Mode  Cnt         Score         Error  Units
safeAbsFast                        avgt   10   9026800.584 ±  528992.157  ns/op
safeAbsFast:branch-misses          avgt           2785.463                 #/op
safeAbsFast:branches               avgt       12474751.905                 #/op
safeAbsFast:cycles                 avgt       27379727.603                 #/op
safeAbsFast:instructions           avgt       92418075.715                 #/op
safeAbsSlow                        avgt   10   6981828.374 ± 2375480.834  ns/op
safeAbsSlow:branch-misses          avgt           2801.022                 #/op
safeAbsSlow:branches               avgt       17496585.992                 #/op
safeAbsSlow:cycles                 avgt       19478382.113                 #/op
safeAbsSlow:instructions           avgt       67589946.278                 #/op

当数据集被排序时，之前的slow 版本变得更快（在这种情况下，代价高昂的分支未命中被最小化）。

环境：

openjdk version "12-internal" 2019-03-19
OpenJDK Runtime Environment (slowdebug build 12-internal+0-adhoc.jdk12)
OpenJDK 64-Bit Server VM (slowdebug build 12-internal+0-adhoc.jdk12, mixed mode)

【讨论】：

这与guess from my comment above基本一致。一方面，我想知道如果测试数据包含“许多”（100 万 ... 900 万）MIN_VALUE 条目，情况是否/如何改变。另一方面，这将是相当学术的，因为这不太可能在现实中发生......
cmp ebx,989680h 是safeAbsSlow 中重复循环的一部分。注意它前面的inc ebx（所以EBX 是一个循环计数器）并且分支目标不是您的反汇编的一部分。它实际上是对数组索引的边界检查，它未能优化掉。我猜它并没有证明数组大小 >= 循环绑定。也许这只是第一次通过 JIT，没有完全优化？此外，“快速”版本包括位于do{}while() asm 循环结构底部的循环分支 (cmp edl/jl)。这不是循环体的一部分。但它确实优化了数组边界检查。
这不仅仅是条件跳转的数量，而是它们中的任何一个是否处于不可预测的条件下。关键是主要工作的分支与无分支 Math.abs。从未使用过的test/jnl 与快速版本中的cmp ecx,80000000h / je 一样便宜。除了 INT_MIN 之外，这两个输入都通过了所有输入。（对原始输入进行检查可以稍早检测到错误预测，因此如果您从数组中加载80000000h，可能会减少丢失的工作。）正如@Marco13 所说，很多MIN_VALUE 会使这个版本变慢，也。（而且慢版本更慢）
包含测试排序输入案例的好主意。是的，通过易于预测的分支，branchy 版本更快：更少的微指令，即使cmov 只有 1 微指令（Broadwell 及更高版本，或 AMD）。 test/jcc 和 cmp/jcc 可以在现代 AMD 和 Intel CPU 上解码为测试和分支微指令。