为什么我的程序这么慢？答案

【问题标题】：Why is my program so slow?为什么我的程序这么慢？
【发布时间】：2013-04-22 20:28:40
【问题描述】：

有人决定做一个快速测试，看看本机客户端在速度方面与 javascript 相比如何。他们通过运行 10 000 000 sqrt 计算并测量所花费的时间来做到这一点。使用 javascript 的结果：0.096 秒，使用 NaCl：4.241 秒……这怎么可能？速度不是首先使用 NaCl 的原因之一吗？还是我遗漏了一些编译器标志之类的？

这是运行的代码：

clock_t t = clock();
float result = 0;
for(int i = 0; i < 10000000; ++i) {
    result += sqrt(i);
}
t = clock() - t;      
float tt = ((float)t)/CLOCKS_PER_SEC;
pp::Var var_reply = pp::Var(tt);
PostMessage(var_reply);

PS：这个问题是native client mailing list中出现的内容的编辑版本

【问题讨论】：

等一下，您复制了一个人的问题，然后从该邮件列表中用另一个人的答案自己回答。
是的，两者都有。这似乎是一个应该分享的答案。如果原始海报想要张贴他们的东西，我很乐意将其删除。我不是想获得荣誉，只是想传播一个我发现非常有用的答案。
这样做完全没问题，但我认为您可以将其发布为社区 wiki 答案，因为您并不完全是该答案的作者。
为什么不把它做成一个wiki呢？此外，无论是问题还是答案都没有写得特别好。在 Stack Overflow 上倾倒的东西很多。此外，您可能应该征求他们的许可，谷歌群组aren't creative commons licenced。

标签： c++ benchmarking google-nativeclient

【解决方案1】：

注意：此答案是 native client mailing list 中出现的内容的编辑版本

微基准很棘手：除非您非常了解自己在做什么，否则很容易产生与您想要观察/测量的行为无关的苹果与橘子的比较。

我将使用您自己的示例进行详细说明（我将排除 NaCl 并坚持现有的“经过验证的”技术）。

这是您作为原生 C 程序的测试：

$ cat test1.c
#include <math.h>
#include <time.h>
#include <stdio.h>

int main() {
  clock_t t = clock();
  float result = 0;
  for(int i = 0; i < 1000000000; ++i) {
      result += sqrt(i);
  }
  t = clock() - t;
  float tt = ((float)t)/CLOCKS_PER_SEC;
  printf("%g %g\n", result, tt);

}
$ gcc -std=c99 -O2 test1.c -lm -o test1
$ ./test1
5.49756e+11 25.43

好的。我们可以在 25.43 秒内完成十亿次循环。但是让我们看看需要时间：让我们替换“result += sqrt(i);”用“结果 += i;”

$ cat test2.c
#include <math.h>
#include <time.h>
#include <stdio.h>

int main() {
  clock_t t = clock();
  float result = 0;
  for(int i = 0; i < 1000000000; ++i) {
      result += i;
  }
  t = clock() - t;
  float tt = ((float)t)/CLOCKS_PER_SEC;
  printf("%g %g\n", result, tt);
}
$ gcc -std=c99 -O2 test2.c -lm -o test2
$ ./test2
1.80144e+16 1.21

哇！ 95% 的时间实际上花在了 CPU 提供的 sqrt 函数上，其他所有时间都花在了不到 5% 上。但是如果我们稍微修改一下代码会怎样：替换 "printf("%g %g\n", result, tt);"与“printf（“%g\n”，tt）；“ ?

$ cat test3.c
#include <math.h>
#include <time.h>
#include <stdio.h>

int main() {
  clock_t t = clock();
  float result = 0;
  for(int i = 0; i < 1000000000; ++i) {
      result += sqrt(i);
  }
  t = clock() - t;
  float tt = ((float)t)/CLOCKS_PER_SEC;
  printf("%g\n", tt);
}
$ gcc -std=c99 -O2 test3.c -lm -o test3
$ ./test
1.44

嗯...看起来现在“sqrt”几乎和“+”一样快。怎么会这样？ printf 是如何影响上一个循环的？

让我们看看：

$ gcc -std=c99 -O2 test1.c -S -o -
...
.L3:
        cvtsi2sd        %ebp, %xmm1
        sqrtsd  %xmm1, %xmm0
        ucomisd %xmm0, %xmm0
        jp      .L7
        je      .L2
.L7:
        movapd  %xmm1, %xmm0
        movss   %xmm2, (%rsp)
        call    sqrt
        movss   (%rsp), %xmm2
.L2:
        unpcklps        %xmm2, %xmm2
        addl    $1, %ebp
        cmpl    $1000000000, %ebp
        cvtps2pd        %xmm2, %xmm2
        addsd   %xmm0, %xmm2
        unpcklpd        %xmm2, %xmm2
        cvtpd2ps        %xmm2, %xmm2
        jne     .L3
 ...
$ gcc -std=c99 -O2 test3.c -S -o -
...
        xorpd   %xmm1, %xmm1
...
.L5:
        cvtsi2sd        %ebp, %xmm0
        ucomisd %xmm0, %xmm1
        ja      .L14
.L10:
        addl    $1, %ebp
        cmpl    $1000000000, %ebp
        jne     .L5
...
.L14:
        sqrtsd  %xmm0, %xmm2
        ucomisd %xmm2, %xmm2
        jp      .L12
        .p2align 4,,2
        je      .L10
.L12:
        movsd   %xmm1, (%rsp)
        .p2align 4,,5
        call    sqrt
        movsd   (%rsp), %xmm1
        .p2align 4,,4
        jmp     .L10
...

第一个版本实际上调用了 sqrt 十亿次，但第二个版本根本没有这样做！相反，它检查数字是否为负并仅在这种情况下调用 sqrt！为什么？编译器（或者更确切地说，编译器作者）在这里试图做什么？

好吧，这很简单：因为我们在这个特定版本中没有使用“result”，所以它可以安全地省略“sqrt”调用......如果值不是负数，那就是！如果它是负数，那么（取决于 FPU 标志） sqrt 可以做不同的事情（返回无意义的结果，使程序崩溃等）。这就是为什么这个版本快了几十倍 - 但它根本不计算平方根！

这是最后一个示例，它显示了微基准测试的错误程度：

$ cat test4.c
#include <math.h>
#include <time.h>
#include <stdio.h>

int main() {
  clock_t t = clock();
  int result = 0;
  for(int i = 0; i < 1000000000; ++i) {
      result += 2;
  }
  t = clock() - t;
  float tt = ((float)t)/CLOCKS_PER_SEC;
  printf("%d %g\n", result, tt);
}
$ gcc -std=c99 -O2 test4.c -lm -o test4
$ ./test4
2000000000 0

执行时间是……零？怎么可能？十亿次计算在不到一眨眼的时间内？让我们看看：

$ gcc -std=c99 -O2 test1.c -S -o -
...
        call    clock
        movq    %rax, %rbx
        call    clock
        subq    %rbx, %rax
        movl    $2000000000, %edx
        movl    $.LC1, %esi
        cvtsi2ssq       %rax, %xmm0
        movl    $1, %edi
        movl    $1, %eax
        divss   .LC0(%rip), %xmm0
        unpcklps        %xmm0, %xmm0
        cvtps2pd        %xmm0, %xmm0
...

呃，哦，循环完全消除了！所有计算都发生在编译时，雪上加霜的是，两个“时钟”调用都是在循环体启动之前执行的！

如果我们把它放在单独的函数中呢？

$ cat test5.c
#include <math.h>
#include <time.h>
#include <stdio.h>

int testfunc(int num, int max) {
  int result = 0;
  for(int i = 0; i < max; ++i) {
      result += num;
  }
  return result;
}

int main() {
  clock_t t = clock();
  int result = testfunc(2, 1000000000);
  t = clock() - t;
  float tt = ((float)t)/CLOCKS_PER_SEC;
  printf("%d %g\n", result, tt);
}
$ gcc -std=c99 -O2 test5.c -lm -o test5
$ ./test5
2000000000 0

还是一样？？？这怎么可能？

$ gcc -std=c99 -O2 test5.c -S -o -
...
.globl testfunc
        .type   testfunc, @function
testfunc:
.LFB16:
        .cfi_startproc
        xorl    %eax, %eax
        testl   %esi, %esi
        jle     .L3
        movl    %esi, %eax
        imull   %edi, %eax
.L3:
        rep
        ret
        .cfi_endproc
...

呃-哦：编译器足够聪明，可以用乘法代替循环！

现在，如果您在一侧添加 NaCl，在另一侧添加 JavaScript，您将得到一个如此复杂的系统，其结果实际上是不可预测的。

这里的问题是，对于微基准测试，您试图隔离一段代码，然后评估它的属性，但是编译器（无论是 JIT 还是 AOT）会试图阻止您的努力，因为它试图从其中删除所有无用的计算你的程序！

微基准测试很有用，当然，但它们是取证分析工具，而不是您想用来比较两个不同系统的速度的工具！为此，您需要一些“真实的”（从某种意义上说：不能被过度渴望的编译器优化成碎片的东西）工作负载：特别是排序算法很受欢迎。

使用 sqrt 的基准特别讨厌，因为正如我们所见，它们通常花费超过 90% 的时间执行一条 CPU 指令：sqrtsd（如果是 32 位版本，则为 fsqrt） JavaScript 和 NaCl。这些基准（如果实施得当）可以作为试金石（如果某些实施的速度与简单的本机版本表现出的差异太大，那么你做错了什么），但它们对于比较 NaCl、JavaScript、C# 的速度是没有用的或 Visual Basic。

【讨论】：

最好将披露信息放在帖子的顶部，考虑到它有多长。