【问题标题】:Process Pandas DataFrames which don't fit in memory处理不适合内存的 Pandas DataFrame
【发布时间】:2015-01-16 16:16:35
【问题描述】:

我正在处理一个使用 HDFStore 对象存储的巨大 DataFrame,该表太大而无法完全加载到内存中,因此我必须逐块提取数据,这对于很多任务来说都很好。

我的问题来了,我想在需要加载整个 DataFrame 的表上应用 PCA,但我没有足够的内存来执行此操作。

PCA function 将 numpy 数组或 pandas DataFrame 作为输入,是否有另一种方法可以应用 PCA 直接使用存储在磁盘上的对象?

非常感谢您,

克莱德X

【问题讨论】:

  • 您可以先使用 PCA 评估数据样本,在此阶段尝试对如此大量的数据执行此操作似乎不切实际,因为您实际上是在执行特征评估
  • 如果我使用样本,输出的准确性会降低,但如果我无法分析整个表格,这当然是一种选择。

标签: python numpy pandas pca hdf


【解决方案1】:

似乎非常适合 scikit-learn 的 0.16 开发分支中的新 IncrementalPCA

更新link to the latest stable version

【讨论】:

  • 确实,我会尝试对我的表的不同块使用 partial_fit(X)。谢谢!
猜你喜欢
  • 2016-01-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-12-17
  • 1970-01-01
  • 2017-05-05
  • 2018-08-16
相关资源
最近更新 更多