【发布时间】:2021-02-19 14:32:54
【问题描述】:
所以我在我的应用程序中计算了很多统计距离,用 C++ (11/14) 编写。我使用 Eigen 库进行线性代数计算。我的代码最初是在 macOS 上编译的,尤其是 BigSur。由于我需要使我的结果可重现,我试图在其他操作系统下获得相同的结果,尤其是 Fedora 32。但是,存在显着的结果差异,在尝试了各种事情后我无法做出任何具体的贡献。
所以我做了一个示例代码...
#include <iostream>
#include <chrono>
#include <Eigen/Core>
#include <Eigen/Dense>
using namespace std;
using namespace std::chrono;
using namespace Eigen;
int main()
{
MatrixXd cov(2,2);
cov << 1.5,0.2,0.2,1.5;
VectorXd mean(2),ne(2);
mean << 10,10;
ne << 10.2,10.2;
auto start = high_resolution_clock::now();
for(int i=0;i<2000000;i++) {
MatrixXd icov=cov.inverse();
VectorXd delta=ne-mean;
double N0=delta.transpose()*(icov*delta);
double res=sqrtf(N0);
}
auto stop = high_resolution_clock::now();
cout << "Mahalanobis calculations in "
<< duration_cast<milliseconds>(stop - start).count()
<< " ms." << endl;
return 0;
}
编译时使用
clang++ -std=c++14 -w -O2 -I'....Eigen/include' -DNDEBUG -m64 -o benchmark benchmark.cpp
在 macOS 和 Fedora32 上。是的,我在 Fedora 上下载并安装了 clang,只是为了确保我使用的是相同的编译器。在 macOS 上,我有 clang 版本 12.0.0,在 Fedora 10.0.1 上!
这些测试用例之间的差异是 2x
macOS:
Mahalanobis calculations in 2833 ms.
Fedora:
Mahalanobis calculations in 1490 ms.
当涉及到我的具体应用时,差异几乎是 30 倍,这很不寻常。与此同时,我检查了以下内容:
- OpenMP 支持 - 尝试打开和关闭、编译时间和运行时(在测试代码块之前设置线程数)
- 各种编译标志和架构
- 为 macOS 添加 OpenMP 支持
- 使用 EIGEN_USE_BLAS、EIGEN_USE_LAPACKE 和 EIGEN_DONT_PARALLELIZE 标志进行调和
没有任何帮助。任何想法问题出在哪里? 也许有内存管理的东西?
【问题讨论】:
-
您能否将您链接的 C++ 运行时添加到问题(以及什么版本)?
-
macOS:libstdc++.6.0.9.dylib,Fedora:libstdc++.so.6.0.28,Eigen 3.3.4
-
您的代码可能大部分时间都花在分配/释放内存上。尝试将
MatrixXd替换为Matrix2d,将VectorXd替换为Vector2d。 -
性能结果问题很难回答,特别是如果您的问题严格专注于理解两个二进制文件之间的差异。我假设您在相同的硬件上运行?你检查过两次编译的汇编输出吗?
标签: c++ openmp eigen clang++ execution-time