【问题标题】:Process a LOT of data处理大量数据
【发布时间】:2017-02-09 13:58:02
【问题描述】:

所以我正在使用参数能量模拟,并最终在.CSV 文件中存储了 500GB 以上的数据。我需要能够处理所有这些数据以比较结果并深入了解不同参数的影响。

每个 csv 文件名都包含用于模拟的参数信息,因此我无法合并文件。

我通常使用 pandas 将 .csv 文件加载到 python 并定义一个类。但是现在(有了所有这些数据)没有足够的内存来执行此操作。

您能指出一种处理这些数据的方法吗?我需要能够绘制并比较 csv 文件。

感谢您的宝贵时间。

【问题讨论】:

  • 简而言之,您需要对数据进行惰性评估。您可能想研究一种逐个(或按批次)检索数据点的方法,但这自然取决于您的特定问题(您尚未向我们解释)。

标签: python csv dataframe bigdata


【解决方案1】:

Convert 将 csv 文件发送到 hdf5,该文件是为处理大量复杂数据集而创建的。它适用于pandas 以及other libraries

【讨论】:

  • 我已经转换了文件并分离了 120gb hdf5 文件。但查询需要很长时间。例如:store.keys()[0] 大约需要 3 分钟。知道为什么吗?
猜你喜欢
  • 2013-01-10
  • 2011-01-10
  • 2017-09-26
  • 2018-01-21
  • 2012-08-24
  • 2011-09-30
  • 2013-12-24
  • 1970-01-01
相关资源
最近更新 更多