海量数据随机选取

问题1：在不知道文件总行数的情况下，如何从文件中随机的抽取一行，并且每行被抽中的概率相等？
问题2：在不知道文件总行数的情况下，如何从文件中随机的抽取 k 行，并且每行被抽中的概率相等？

在知道文件行数的情况下，直接用 rand 函数就可以
不知道文件行数的时候，我们需要一个概念来使得对每一行取出的概率相等，也即随机。这个概念即蓄水池抽样
解决方案：

为什么这样可以呢，是有数学方面严格证明的
证明如下：

其实知道每行被选取的概率的公式之后，自己就可以推导

海量数据随机选取

当理解了问题一，其实问题二就很好理解，可以将 k 行数据看做一个整体
解题思路：

这样的话，对于任意的 n ，都能保证每个数的选取概率都为 k/n，每个数选取概率相等，即随机。

证明如下：

重点在于每行被选取的概率的公式，理解之后，稍微化简一下就可以推导出来。

海量数据随机选取