【发布时间】:2016-10-08 19:25:17
【问题描述】:
我一直在尝试为从文件中读取的数据集编写插入和合并排序。在测试我的代码时,我使用了一个小数据集(包括 6 个数字)并且我的程序运行良好。但是当我使用具有 1000000 个输入的更大数据集时,代码不起作用,我不明白为什么。我试图将向量的类型更改为双精度,但它并没有解决问题。 提前感谢您的所有帮助。
我的数据集由以下数字组成:512069、12823、11628
这是我的代码:
vector<int> readFile(string fileName);
void display(vector<int> &vector);
void insertionSort(vector<int> &vec);
vector<int> merge(vector<int> left, vector<int> right);
vector<int> mergeSort(vector<int> &m);
int main(int argc, const char * argv[]) {
string fileName;
cout<<"Enter input file name :";
cin>>fileName;
vector<int> numbersVec = readFile(fileName);
display(numbersVec);
cout<<"INSERTION SORT"<<"\n";
insertionSort(numbersVec);
display(numbersVec);
cout<<"MERGE SORT"<<"\n";
vector<int> neu = mergeSort(numbersVec);
display(neu);
return 0;
}
vector<int> readFile(string fileName){
vector<int> numbers;
ifstream in(fileName,std::ios::in);
if(!in.is_open())
{
cout << "File Cannot be Opened" << endl;
}
else{
int number;
while (in >> number) {
numbers.push_back(number);
}
}
in.close();
return numbers;
}
void display(vector<int> &vec) {
for(int i = 0; i < vec.size(); i++)
{
cout << vec[i] << " ";
}
cout << "\n" << endl;
}
void insertionSort(vector<int> &vec) {
long double i, j, tmp;
for (i = 1; i < vec.size(); i++) {
j = i;
while (j > 0 && vec[j - 1] > vec[j]) {
tmp = vec[j];
vec[j] = vec[j - 1];
vec[j - 1] = tmp;
j--;
}
}
}
vector<int> merge(vector<int> tmpl, vector<int> tmpr){
vector<int> res;
while ((int)tmpl.size() > 0 || (int)tmpr.size() > 0) {
if ((int)tmpl.size() > 0 && (int)tmpr.size() > 0) {
if ((int)tmpl.front() <= (int)tmpr.front()) {
res.push_back((int)tmpl.front());
tmpl.erase(tmpl.begin());
}
else {
res.push_back((int)tmpr.front());
tmpr.erase(tmpr.begin());
}
}
else if ((int)tmpl.size() > 0) {
for (int i = 0; i < (int)tmpl.size(); i++)
res.push_back(tmpl[i]);
break;
}
else if ((int)tmpr.size() > 0) {
for (int i = 0; i < (int)tmpr.size(); i++)
res.push_back(tmpr[i]);
break;
}
}
return res;
}
vector<int> mergeSort(vector<int> &vec)
{
if (vec.size() <= 1)
return vec;
vector<int> tmpl, tmpr, res;
int mid = ((int)vec.size()+ 1) / 2;
for (int i = 0; i < mid; i++) {
tmpl.push_back(vec[i]);
}
for (int i = mid; i < (int)vec.size(); i++) {
tmpr.push_back(vec[i]);
}
tmpl = mergeSort(tmpl);
tmpr = mergeSort(tmpr);
res = merge(tmpl, tmpr);
return res;
}
【问题讨论】:
-
大数据集有哪些错误?永远循环还是别的什么?在
insertionSort、i、j、tmp中应该有int类型,但不是long double。您的mergeSort函数似乎效率低下(多向量副本:合并可能到位)。 -
它在打印出 INSERTION SORT 后进入无限循环,我尝试使用调试器几乎不可能跟踪如此大的集合。我还将 i, j, tmp 更改为 int,但它仍然没有跳出循环。
-
这是一个复杂性问题。您的插入排序是 n(n-1)/2 其中 n 是向量的大小。即使你的vector只有100万条数据,你也会等很久。
-
这些都不是问题,但不要使用
std::endl,除非你需要它做的额外东西;'\n'结束一行。而且你不需要在readFile的末尾关闭输入流;流的析构函数会这样做。 -
谢谢 Franck,但是有没有办法解决呢?我认为使用向量会更节省内存,使用数组来保存我的数据会加速吗?由于我的教授给了我数据集,我知道我最多会有 100 万个数据。
标签: c++ sorting dataset mergesort insertion-sort