【发布时间】:2014-10-29 17:01:03
【问题描述】:
我有一个数据结构,其中包含一个向量向量,每个向量包含约 16000000 个双精度值。
我现在想对这些向量进行中值组合,也就是说,我在第 i 处取值,计算这些向量的中值,然后将它们存储在第 i 处的结果向量中。
我已经有了直截了当的解决方案,但是速度非常慢:
vector< vector<double> > vectors; //vectors contains the datavectors
vector<double> tmp;
vector<double> result;
vector<double> tmpmedian;
double pixels = 0.0;
double matrixcount = vectors.size();
tmp = vectors.at(0);
pixels = tmp.size();
for (int i = 0; i < pixels; i++) {
for (int j = 0; j < matrixcount; j++) {
tmp = vectors.at(j);
tmpmedian.push_back(tmp.at(i));
}
result.push_back(medianOfVector(tmpmedian));
tmpmedian.clear();
}
return result;
而且 medianOfVector 看起来像这样:
double result = 0;
if ((vec.size() % 2) != 0) {
vector<double>::iterator i = vec.begin();
vector<double>::size_type m = (vec.size() / 2);
nth_element(i, i + m, vec.end());
result = vec.at(m);
} else {
vector<double>::iterator i = vec.begin();
vector<double>::size_type m = (vec.size() / 2) - 1;
nth_element(i, i + m, vec.end());
result = (vec.at(m) + vec.at(m + 1)) / 2;
}
return result;
我有一种算法或方法可以更快地做到这一点,它几乎需要永恒的时间才能做到。
编辑:感谢您的回复,如果有人对此感兴趣,这里是固定版本,现在将三个向量与约 16000000 个元素中值组合大约需要 9 秒,平均组合大约需要 3 秒:
vector< vector<double> > vectors; //vectors contains the datavectors
vector<double> *tmp;
vector<double> result;
vector<double> tmpmedian;
tmp = &vectors.at(0);
int size = tmp->size();
int vectorsize = vectors.size();
for (int i = 0; i < size; i++) {
for (int j = 0; j < vectorsize; j++) {
tmp = &vectors.at(j);
tmpmedian.push_back(tmp->at(i));
}
result.push_back(medianOfVector(tmpmedian));
tmpmedian.clear();
}
return result;
和中位数的向量:
double result = 0;
if ((vec.size() % 2) != 0) {
vector<double>::iterator i = vec.begin();
vector<double>::size_type m = (vec.size() / 2);
nth_element(i, i + m, vec.end());
result = vec.at(m);
} else {
vector<double>::iterator i = vec.begin();
vector<double>::size_type m = (int) (((vec.size() - 1) / 2));
nth_element(i, i + m, vec.end());
double min = vec.at(m);
double max = *min_element(i + m + 1, vec.end());
result = (min + max) / 2;
}
return result;
}
【问题讨论】:
-
我不确定如果没有关于正在处理的数据的更多信息,人们能够提出多少有用的算法建议。他们是否可以对数据或您知道它将具有的属性做出进一步的假设?如果您正在处理大量未知内容的可变长度向量,那么您可能无法通过算法做很多事情(但可能通过实现仍有一些改进)。
-
在我看来这可以并行完成?您是否考虑过将其卸载到 GPU(使用 CUDA/C++AMP/OpenCL...)?
-
您正在制作大量矢量副本。你能传递指向原始向量的指针吗?
-
在您的 medianOfVector 中,您调用 nth_element 来设置第 m 个元素,然后也访问第 (m+1) 个元素。不幸的是,这不一定是设置的。
-
@Owen:可悲的是有点随机,数据是图像的表示,大小>16 MPixels。