【发布时间】:2015-01-16 16:16:35
【问题描述】:
我正在处理一个使用 HDFStore 对象存储的巨大 DataFrame,该表太大而无法完全加载到内存中,因此我必须逐块提取数据,这对于很多任务来说都很好。
我的问题来了,我想在需要加载整个 DataFrame 的表上应用 PCA,但我没有足够的内存来执行此操作。
PCA function 将 numpy 数组或 pandas DataFrame 作为输入,是否有另一种方法可以应用 PCA 直接使用存储在磁盘上的对象?
非常感谢您,
克莱德X
【问题讨论】:
-
您可以先使用 PCA 评估数据样本,在此阶段尝试对如此大量的数据执行此操作似乎不切实际,因为您实际上是在执行特征评估
-
如果我使用样本,输出的准确性会降低,但如果我无法分析整个表格,这当然是一种选择。
标签: python numpy pandas pca hdf