【发布时间】:2021-06-15 17:31:58
【问题描述】:
我正在尝试将我之前用 python 编写的一些代码转移到 C++ 中,我目前正在测试 xtensor,看看它是否可以比 numpy 更快地完成我需要的工作。
我的一个函数采用方阵 d 和标量 alpha,并执行元素运算alpha/(alpha+d)。背景:该函数用于测试alpha 的哪个值是“最佳”的,因此它处于循环中,d 始终相同,但alpha 不同。
以下所有时间尺度都是运行该函数的 100 个实例的平均值。
在numpy中,执行此操作大约需要0.27秒,代码如下:
def kfun(d,alpha):
k = alpha /(d+alpha)
return k
但 xtensor 大约需要 0.36 秒,代码如下所示:
xt::xtensor<double,2> xk(xt::xtensor<double,2> d, double alpha){
return alpha/(alpha+d);
}
我也尝试过使用std::vector 的以下版本,但我不想长期使用这个版本,即使它只花了 0.22 秒。
std::vector<std::vector<double>> kloops(std::vector<std::vector<double>> d, double alpha, int d_size){
for (int i = 0; i<d_size; i++){
for (int j = 0; j<d_size; j++){
d[i][j] = alpha/(alpha + d[i][j]);
}
}
return d;
}
我注意到 xtensor 中的 operator/ 使用“延迟广播”,有没有办法让它立即生效?
编辑:
在Python中,函数调用如下,并使用“time”包进行计时
t0 = time.time()
for i in range(100):
kk = k(dsquared,alpha_squared)
print(time.time()-t0)
在 C++ 中,我调用的函数如下,并使用 chronos 进行计时:
//d is saved as a 1D npy file, an artefact from old code
auto sd2 = xt::load_npy<double>("/path/to/d.npy");
shape = {7084, 7084};
xt::xtensor<double, 2> xd2(shape);
for (int i = 0; i<7084;i++){
for (int j=0; j<7084;j++){
xd2(i,j) = (sd2(i*7084+j));
}
}
auto start = std::chrono::steady_clock::now();
for (int i = 0;i<10;i++){
matrix<double> kk = kfun(xd2,4000*4000,7084);
}
auto end = std::chrono::steady_clock::now();
std::chrono::duration<double> elapsed_seconds = end-start;
std::cout << "k takes: " << elapsed_seconds.count() << "\n";
如果您希望运行此代码,我建议使用 xd2 作为对角线上为零的对称 7084x7084 随机矩阵。
该函数的输出,一个名为k 的矩阵,然后继续用于其他函数,但我仍然需要d 保持不变,因为它稍后会被重用。
结束编辑
要运行我的 C++ 代码,我在终端中使用以下行:
cd "/path/to/src/" && g++ -mavx2 -ffast-math -DXTENSOR_USE_XSIMD -O3 ccode.cpp -o ccode -I/path/to/xtensorinclude && "/path/to/src/"ccode
提前致谢!
【问题讨论】:
-
好问题!改进问题的一般评论是最小的可重现示例会更好。具体来说,您可以包含用于调用该函数的几行代码。这将更容易判断副本的微妙之处。更详细的一点是您的
std::vector示例似乎没有分配回报。此外,总的来说,您应该使用for (int i = 0; i<d.size();i++)和for (int j = 0; j<d[i].size();j++)(更好的是用int替换size_t。如果您可以编辑以澄清这些事情,那就太好了 -
@TomdeGeus 嗨!感谢您的评论。我只是想澄清一下,显然我对此很陌生,但我想我认为如果我只是指定大小而不是每次都要求它计算出来,那么函数会更快吗?这是错的吗?此函数在循环中调用,特别是使用不同的 alpha 值。另外,我的 std::vector 示例没有分配回报是什么意思?我知道您可以为更改输入的函数执行 void 函数,例如,我是否不小心这样做了,而不是输出更改后的“d”?
-
编译器可能会优化(某些)大小调用,但老实说,您的
d_size选项从我的屏幕上掉了出来,所以我没有注意到它并假设您可能有错字。对于向量示例,您有一些未定义的d2,但您更正了这个,所以一切都很好! -
关于这个问题的小评论。通过最新的编辑,问题变得更好了。更好的是确保它是可重现的:任何人都可以复制你的代码 sn-p 并直接编译和运行它。为此,您可以将
dsquared和xd2简单地作为随机数矩阵引入 -
@TomdeGeus 你介意吗,我在编辑底部写的好吗?还是我应该上传一个示例?