【发布时间】:2016-08-10 14:49:16
【问题描述】:
这确实是一个广泛的话题。作为 Pandas 的新手,我会发现在 Stackoverflow 上发表一篇文章很有用,我们可以在其中描述和评论处理常规计算机中无法加载的数据的不同替代方案(我将在 16Gb 上划线内存)。我目前正在学习如何轻松处理大约 50Gb。
到目前为止,我有 chrisb 和 Noobie 提到 Dask 作为一个潜在的替代品。理想情况下,我想执行与我通常在 Pandas 上执行的操作类似的操作。
我在论坛上阅读并找到了一些将 cvs 文件划分为更易于管理的 1Gb 文件的方法,我可以使用 read_csv 单独加载和处理这些文件。例如,这个问题How can I split a large file csv file (7GB) in Python 显示了如何拆分大型 cvs 文件。
1) 但是,如何在不将它们全部读入内存的情况下,有效地操作具有多个单独 csv 文件的 groupby 等典型 pandas 函数?
2) 我看到提到其他处理大型数据集的 python 库。例如,该社区中的一些帖子将 HDF5 和 Blazer 称为大数据处理的替代方案。这将如何适合我想做的事情?使用这些库或其他库执行常见 pandas 操作的示例是什么?
3) 处理这些大数据的建议路径是什么?
谢谢你,感谢你的帮助,
【问题讨论】: