【发布时间】:2020-03-08 19:04:21
【问题描述】:
我想使用并行编程在 R 中导入一个大型数据集 包,例如 doparallel、foreach 和 parallel。
【问题讨论】:
-
您实际需要 1.9GB 的百分比是多少?文件中是否有很多行或列,但您可以过滤/子集?这最终会在 R 之后进入数据库吗?
-
并行化它并没有帮助:即使你并行读取它,你也有时间从子节点收集到主 R 实例。选项:(1)使用快速阅读器,如
readr::read_csv或data.table::fread(其他存在); (2) 读入每个子节点,但就地处理(在节点中,不传回主 R 实例),只返回/传输必要的聚合。
标签: r csv import parallel-processing