C++ Eigen 执行时间差答案

【问题标题】：C++ Eigen execution time differenceC++ Eigen 执行时间差
【发布时间】：2021-02-19 14:32:54
【问题描述】：

所以我在我的应用程序中计算了很多统计距离，用 C++ (11/14) 编写。我使用 Eigen 库进行线性代数计算。我的代码最初是在 macOS 上编译的，尤其是 BigSur。由于我需要使我的结果可重现，我试图在其他操作系统下获得相同的结果，尤其是 Fedora 32。但是，存在显着的结果差异，在尝试了各种事情后我无法做出任何具体的贡献。

所以我做了一个示例代码...

#include <iostream>
#include <chrono>
#include <Eigen/Core>
#include <Eigen/Dense>
using namespace std;
using namespace std::chrono;
using namespace Eigen;

int main()
{
  MatrixXd cov(2,2);
  cov << 1.5,0.2,0.2,1.5;
  VectorXd mean(2),ne(2);
  mean << 10,10;
  ne << 10.2,10.2;
  
  auto start = high_resolution_clock::now();
  for(int i=0;i<2000000;i++) {
    MatrixXd icov=cov.inverse();
    VectorXd delta=ne-mean;
    double N0=delta.transpose()*(icov*delta);
    double res=sqrtf(N0);
  }
  auto stop = high_resolution_clock::now();
  
  cout << "Mahalanobis calculations in "
       << duration_cast<milliseconds>(stop - start).count()
       << " ms." << endl;
  
  return 0;
}

编译时使用

clang++ -std=c++14 -w -O2 -I'....Eigen/include' -DNDEBUG -m64 -o benchmark benchmark.cpp

在 macOS 和 Fedora32 上。是的，我在 Fedora 上下载并安装了 clang，只是为了确保我使用的是相同的编译器。在 macOS 上，我有 clang 版本 12.0.0，在 Fedora 10.0.1 上！

这些测试用例之间的差异是 2x

macOS：

Mahalanobis calculations in 2833 ms.

Fedora：

Mahalanobis calculations in 1490 ms.

当涉及到我的具体应用时，差异几乎是 30 倍，这很不寻常。与此同时，我检查了以下内容：

OpenMP 支持 - 尝试打开和关闭、编译时间和运行时（在测试代码块之前设置线程数）
各种编译标志和架构
为 macOS 添加 OpenMP 支持
使用 EIGEN_USE_BLAS、EIGEN_USE_LAPACKE 和 EIGEN_DONT_PARALLELIZE 标志进行调和

没有任何帮助。任何想法问题出在哪里？也许有内存管理的东西？

【问题讨论】：

您能否将您链接的 C++ 运行时添加到问题（以及什么版本）？
macOS：libstdc++.6.0.9.dylib，Fedora：libstdc++.so.6.0.28，Eigen 3.3.4
您的代码可能大部分时间都花在分配/释放内存上。尝试将MatrixXd 替换为Matrix2d，将VectorXd 替换为Vector2d。
性能结果问题很难回答，特别是如果您的问题严格专注于理解两个二进制文件之间的差异。我假设您在相同的硬件上运行？你检查过两次编译的汇编输出吗？

标签： c++ openmp eigen clang++ execution-time

【解决方案1】：

最后，为所有遇到相同问题的人回答这个问题。问题在于内存管理。正如有人指出的那样，这是动态分配和静态分配的 Eigen 对象之间的巨大差异。所以

MatrixXd cov(2,2);

往往比

慢得多

Matrix<double,2,2> cov;

因为第一种方法使用堆来动态分配所需的内存。归根结底，这一切都归结为操作系统处理内存的方式。似乎 Linux 比 macOS 或 Windows 做得更好（实际上并不奇怪）。

我知道不可能总是使用Matrix2d 而不是旧的MatrixXd。一些开发人员甚至报告说，本征矩阵数学往往比他们自己自制的简单解决方案要慢，但这归结为选择自己做所有事情，或者使用通用的线性代数库。取决于你在做什么......

【讨论】：