【发布时间】:2018-04-05 11:55:47
【问题描述】:
我以两种方式对向量乘以矩阵进行编码,一种使用 openMP,另一种使用 std::async。我预计性能几乎相同。 OpenMP 在第一次调用时很慢,可能是因为它推迟了创建线程池。之后,异步版本始终慢 40%。 (我有英特尔酷睿 i5,即 4 核。)
有什么关系? VC++ 不使用线程池进行异步吗?我在做傻事吗? (很可能。)我认为对输出向量的访问间隔足够大,以避免错误共享。
#include "stdafx.h"
# include <iostream>
# include <vector>
# include <omp.h>
# include <ctime>
#include <numeric>
#include <thread>
#include <chrono>
#include <future>
// Matrix multiplication of vector using omp
template<class Mat, class Vec>
void mult_mat_vec_omp
(const Mat &mat, const Vec &inp, Vec &out) {
const int steps = static_cast<int>(std::size(mat));
using std::begin; using std::end;
auto N = std::thread::hardware_concurrency();
omp_set_num_threads(N);
#pragma omp parallel for
for (int i=0; i < steps; ++i) {
out[i] = std::inner_product(begin(mat[i]), end(mat[i]), begin(inp), 0.0);
}
}
// Matrix multiplication of vector using async
template<class Mat, class Vec>
void mult_mat_vec_async
(const Mat &mat, const Vec &inp, Vec &out) {
using std::begin; using std::end;
auto N = std::thread::hardware_concurrency();
typedef decltype(N) usigned;
const unsigned steps = static_cast<unsigned>(std::size(mat));
auto f = [&](unsigned id) {
for (unsigned i=id; i < steps; i+= N) {
out[i] = std::inner_product(begin(mat[i]), end(mat[i]), begin(inp), 0.0);
}
};
std::vector<std::future<void>> threads;
for (unsigned i = 1; i<N; ++i) {
threads.push_back(std::async(std::launch::async, f, i));
}
f(0);
for (auto &x: threads) {
x.get();
}
}
double test() {
using std::vector;
using clock=std::chrono::high_resolution_clock;
vector<double> a;
vector<double> b;
vector<double> c;
vector<vector<double>> mat;
vector<double> v;
int rows = 350;
int cols = 350;
for (int i = 0; i< cols; ++i) {
a.push_back(i/10.0);
b.push_back(-999);
c.push_back(8888);
}
for (int i=0; i<rows; ++i) {
v.clear();
for (int j=0; j<cols; ++j) {
v.push_back (((i+.5)*j)/100.0);
}
mat.push_back(v);
}
clock::time_point start = clock::now();
int N = 10000;
for (int i=0; i< N/10; ++i) {
mult_mat_vec_omp(mat, a, b) ;
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
mult_mat_vec_omp(mat, a, b);
};
long long duration =
std::chrono::duration_cast<std::chrono::milliseconds>(clock::now()-start).count();
start = clock::now();
size_t cutoff = 0; // 2*rows*cols;
for (int i=0; i< N/10; ++i) {
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
mult_mat_vec_async(mat, a, c);
};
long long duration2 = std::chrono::duration_cast<std::chrono::milliseconds>(clock::now()-start).count();
//cout << mat[0][5] << " " << b[0] << " " << c[0] << endl;
bool good = (b==c);
std::cout << duration*(1.0/N) << ' ' << duration2*(1.0/N) << " " << good << std::endl;
return 0;
}
int main ()
{
for(int i=0; i<15; ++i) test();
return 0;
}
【问题讨论】:
-
基准测试持续多长时间?秒?毫秒?
-
每次迭代的秒数(发布模式)。如果你必须赶公共汽车,如何减少这种情况应该很明显。减少 N=10000。
-
一方面,
std::async版本中的内存访问模式非常糟糕。每个线程都跨步N。在 OpenMP 版本中,您让 OpenMP 处理工作分配。它可能使用块分布而不是步幅分布。 -
因为缓存未命中而很糟糕? N 只有 4。
-
我不确定这是否会有所不同,但这意味着每个线程接触的 cachlines 比它需要的多 4 倍。另一种可能性是您在写入
out[i]时得到错误共享。它们在线程之间交错,因此很有可能发生冲突。
标签: c++ multithreading visual-c++ openmp stdasync