【发布时间】:2012-11-20 19:13:30
【问题描述】:
我有一个大约 200000 数据点的大型数据集,其中每个数据点都包含 132 特征。所以基本上我的数据集是200000 x 132。
我已经使用armadillo framework 完成了所有计算。但是,我尝试进行 PCA 分析,但我收到了一个内存错误,我不知道这是因为我的 RAM 内存(8 GB 的 Ram)还是由于框架本身的限制。
我收到以下错误:requested size is too large。
您能否向我推荐另一个没有大小/内存限制的 PCA 计算框架?
或者,如果您以前使用犰狳进行 PCA 计算并遇到此问题,您能告诉我您是如何解决的吗?
【问题讨论】:
-
是否可以将您的数据集划分为更小的子集,然后汇总结果?
-
我不知道如何组合来自不同 PCA 步骤的结果。你知道这样做的方法吗?
-
好吧,另一个框架对你没有帮助,你可以尝试使用这种奇怪形状的矩阵的唯一方法是,如果 double 未能避免数值舍入错误,则使用四精度或更高精度
-
你不能找到 132 x 132 的协方差矩阵,然后是所有或前几个特征向量,如 [PCA](en.wikipedia.org/wiki/Principal_component_analysis] ?