【问题标题】:C++ Eigen execution time differenceC++ Eigen 执行时间差
【发布时间】:2021-02-19 14:32:54
【问题描述】:

所以我在我的应用程序中计算了很多统计距离,用 C++ (11/14) 编写。我使用 Eigen 库进行线性代数计算。我的代码最初是在 macOS 上编译的,尤其是 BigSur。由于我需要使我的结果可重现,我试图在其他操作系统下获得相同的结果,尤其是 Fedora 32。但是,存在显着的结果差异,在尝试了各种事情后我无法做出任何具体的贡献。

所以我做了一个示例代码...

#include <iostream>
#include <chrono>
#include <Eigen/Core>
#include <Eigen/Dense>
using namespace std;
using namespace std::chrono;
using namespace Eigen;

int main()
{
  MatrixXd cov(2,2);
  cov << 1.5,0.2,0.2,1.5;
  VectorXd mean(2),ne(2);
  mean << 10,10;
  ne << 10.2,10.2;
  
  auto start = high_resolution_clock::now();
  for(int i=0;i<2000000;i++) {
    MatrixXd icov=cov.inverse();
    VectorXd delta=ne-mean;
    double N0=delta.transpose()*(icov*delta);
    double res=sqrtf(N0);
  }
  auto stop = high_resolution_clock::now();
  
  cout << "Mahalanobis calculations in "
       << duration_cast<milliseconds>(stop - start).count()
       << " ms." << endl;
  
  return 0;
}

编译时使用

clang++ -std=c++14 -w -O2 -I'....Eigen/include' -DNDEBUG -m64 -o benchmark benchmark.cpp

在 macOS 和 Fedora32 上。是的,我在 Fedora 上下载并安装了 clang,只是为了确保我使用的是相同的编译器。在 macOS 上,我有 clang 版本 12.0.0,在 Fedora 10.0.1 上!

这些测试用例之间的差异是 2x

macOS:

Mahalanobis calculations in 2833 ms.

Fedora:

Mahalanobis calculations in 1490 ms.

当涉及到我的具体应用时,差异几乎是 30 倍,这很不寻常。与此同时,我检查了以下内容:

  • OpenMP 支持 - 尝试打开和关闭、编译时间和运行时(在测试代码块之前设置线程数)
  • 各种编译标志和架构
  • 为 macOS 添加 OpenMP 支持
  • 使用 EIGEN_USE_BLAS、EIGEN_USE_LAPACKE 和 EIGEN_DONT_PARALLELIZE 标志进行调和

没有任何帮助。任何想法问题出在哪里? 也许有内存管理的东西?

【问题讨论】:

  • 您能否将您链接的 C++ 运行时添加到问题(以及什么版本)?
  • macOS:libstdc++.6.0.9.dylib,Fedora:libstdc++.so.6.0.28,Eigen 3.3.4
  • 您的代码可能大部分时间都花在分配/释放内存上。尝试将MatrixXd 替换为Matrix2d,将VectorXd 替换为Vector2d
  • 性能结果问题很难回答,特别是如果您的问题严格专注于理解两个二进制文件之间的差异。我假设您在相同的硬件上运行?你检查过两次编译的汇编输出吗?

标签: c++ openmp eigen clang++ execution-time


【解决方案1】:

最后,为所有遇到相同问题的人回答这个问题。问题在于内存管理。正如有人指出的那样,这是动态分配和静态分配的 Eigen 对象之间的巨大差异。所以

MatrixXd cov(2,2);

往往比

慢得多
Matrix<double,2,2> cov;

因为第一种方法使用堆来动态分配所需的内存。归根结底,这一切都归结为操作系统处理内存的方式。似乎 Linux 比 macOS 或 Windows 做得更好(实际上并不奇怪)。

我知道不可能总是使用Matrix2d 而不是旧的MatrixXd。一些开发人员甚至报告说,本征矩阵数学往往比他们自己自制的简单解决方案要慢,但这归结为选择自己做所有事情,或者使用通用的线性代数库。取决于你在做什么......

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-12-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多