A题是这样子的:
给定一个最多包含40亿个随机排列的32位整数的顺序文件,找出一个不在文件中的32位整数(在文件中至少缺失一个这样的数据——为什么?)。在具有足够内存的情况下,如何解决该问题?如果有几个外部的“临时”文件可用,但是仅有几个字节的内存,又该如何解决该问题?
因为2^32>40亿,所以,在文件中至少会缺少一个这样的数据。在有足够内存的情况下,我们可以使用上一章提到的位图数据结构来解决该问题。但利用位图数据结构来解决该问题需要利用到的内存为:40亿/8/1024/1024=476MB,所以当内存不足时是不能够用这种方法的。
前面一篇博文提到了可以用数列求和方法来求得缺失的数。但就是这种方法有一个要求就是,任一个数与其前一个数的差值是一个定值,即要求该数列是一个等差数列。所以,如果我们能够确定,这个需要找出缺失的数的顺序文件里边的数是一个等差数列,那我们就可以利用该方法简单求出缺失的数了,而且占用内存极少,效率当然也就更高。
作者对该问题的解决方法是利用“二分搜索”的方法。具体如下:
算法的第一趟(最多)读取40亿个输入整数,并把起始位为0的整数写入一个顺序文件,把起始位为1的整数写入另一个顺序文件。如下图所示。
这两个文件中,有一个文件最多包含20亿个整数,我们接下来将该文件用作当前输入并重复探测过程,但这次探测的是第2个位。如果原始的输入文件中包含n个元素,那么第1趟将读取n个整数,第2趟最多读取n/2个整数,第3趟最多读取n/4个整数,依此类推,所以总的运行时间正比于n。通过排序文件并扫描,我们也能够找到缺失整数,但是这样做会导致运行时间正比于nlogn。
下边我们就来看看,用“二分搜索”怎么解决这个问题:
1. 文件读写
首先我们来看怎么进行文件的读写。有一篇博文总结的很不错,值得参考。贴出具体代码如下:
1 #include <iostream> 2 #include <fstream> 3 #include <string> 4 #include <sstream> 5 #include <math.h> 6 using namespace std; 7 8 int main() 9 { 10 // *************************** Write File *************************** // 11 // Open file 12 ofstream wfile("file.txt", ios::out); 13 if (!wfile) 14 { 15 cout << "The file can not be opened!" << endl; 16 exit(1); 17 } 18 19 for (int i = 0; i < pow(2, 16); i++) 20 { 21 stringstream ss; 22 ss << i; 23 string str = ss.str(); 24 wfile << str; 25 wfile << endl; 26 } 27 28 // Close the file 29 wfile.close(); 30 31 // *************************** Read File *************************** // 32 // Open file 33 ifstream rfile("file.txt", ios::in); 34 if (!rfile) 35 { 36 cout << "The file can not be opened!" << endl; 37 exit(1); 38 } 39 40 string line; 41 int num; 42 while (getline(rfile, line)) 43 { 44 // cout << line << endl; 45 stringstream ss; 46 ss << line; 47 ss >> num; 48 cout << num << endl; 49 } 50 51 // Close the file 52 rfile.close(); 53 54 return 0; 55 }