【发布时间】:2013-06-02 14:54:43
【问题描述】:
我正在尝试在 R 中对一组中等规模的数据集进行数据分析。我需要做的一项分析要求我对大约 24-48 个文件进行完全外部连接,每个文件有大约 60 列和多达 450,000 行。所以我经常遇到内存问题。
我认为 ffbase 或 sqldf 会有所帮助,但显然它们中的任何一个都不可能完全外连接。
有解决方法吗?我还没有找到的包裹?
【问题讨论】:
-
查看
data.table。你有多少内存? -
另外,你怎么认为 sqldf 不能做全外连接? sqlite 有点棘手,因为您必须进行左/右连接然后合并它们,但 sqldf 也支持其他数据库后端......
-
如果您在 sqldf 中使用外连接语句编写,它会发出警告,指出尚不支持显式外连接。
-
消息说不支持 RIGHT 和 FULL 外连接。还剩下一个,这就是你所需要的。更不用说除了 SQLite 之外,您还有其他可用的数据库后端。
-
但是只有 3-4 GB 的 RAM,我突然怀疑,无论使用什么方法,在 25 个以上的表上进行外连接是否会有很多运气,每个表都有数十万行你在用吗?
标签: r bigdata outer-join sqldf ffbase