【发布时间】:2015-03-14 21:50:54
【问题描述】:
我在 R 中进行一些分析,需要处理一些大型数据集(10-20GB,存储在 .csv 中,并使用 read.csv 函数)。
由于我还需要将大型 .csv 文件与其他数据帧进行合并和转换,因此我没有计算能力或内存来导入整个文件。
我想知道是否有人知道导入随机百分比的 csv 的方法。
我看到了一些示例,其中人们导入了整个文件,然后使用单独的函数创建另一个数据框,该数据框是原始样本的示例,但我希望能做一些不那么密集的事情。
【问题讨论】:
-
我认为您应该将数据放入数据库中。 This answer 可能有用。
-
我同时使用 Mac (Yosemite) 和 PC (Windows 7)
-
一种选择可能是使用像
awk这样的unix 命令行工具,这里有一个很好的讨论:stackoverflow.com/questions/692312/… 一旦你使用awk采样,然后读入R。跨度>
标签: r csv import statistics subsampling