处理不适合内存的 Pandas DataFrame

【问题标题】：Process Pandas DataFrames which don't fit in memory处理不适合内存的 Pandas DataFrame
【发布时间】：2015-01-16 16:16:35
【问题描述】：

我正在处理一个使用 HDFStore 对象存储的巨大 DataFrame，该表太大而无法完全加载到内存中，因此我必须逐块提取数据，这对于很多任务来说都很好。

我的问题来了，我想在需要加载整个 DataFrame 的表上应用 PCA，但我没有足够的内存来执行此操作。

PCA function 将 numpy 数组或 pandas DataFrame 作为输入，是否有另一种方法可以应用 PCA 直接使用存储在磁盘上的对象？

非常感谢您，

克莱德X

【问题讨论】：

您可以先使用 PCA 评估数据样本，在此阶段尝试对如此大量的数据执行此操作似乎不切实际，因为您实际上是在执行特征评估
如果我使用样本，输出的准确性会降低，但如果我无法分析整个表格，这当然是一种选择。

标签： python numpy pandas pca hdf

【解决方案1】：

似乎非常适合 scikit-learn 的 0.16 开发分支中的新 IncrementalPCA。

更新：link to the latest stable version

【讨论】：

确实，我会尝试对我的表的不同块使用 partial_fit(X)。谢谢！

猜你喜欢

2016-01-29
1970-01-01
1970-01-01
1970-01-01
2020-12-17
1970-01-01
2017-05-05
2018-08-16

相关资源

下载 2022-12-20
下载 2023-01-03
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode