机器学习 - 大数据集的问题答案

【问题标题】：Machine Learning -Issues with big dataset机器学习 - 大数据集的问题
【发布时间】：2015-06-07 22:44:42
【问题描述】：

我正在尝试将机器学习应用于 Kaggle.com 数据集。我的数据集的尺寸是 244768 x 34756。现在在这个尺寸下，scikit 算法都不起作用。

我以为我会应用 PCA ，但即使这样也不能扩展到这个数据集。

无论如何我可以从我的训练数据集中减少冗余数据吗？我可以通过应用 PCA 来减小维度，但如果我可以应用 PCA。

由于我正在进行文档分类，我通过减小词向量大小将我的数据集重新采样为 244768*5672。 PCA 甚至不能应用于这个数据集。

我可以通过这种方法应用 PCA。假设我的矩阵是 A - X = A.T * A pca(X)（X 变为 5672 x 5672 矩阵）这会给我错误的答案吗？

当我应用逻辑回归时，我可以增量训练模型吗，.ie

如果 A = 10000 x 500 我可以拿 1000 x 500 到logistic.fit(A) 然后对其他行做同样的事情吗？这种训练有错吗？

【问题讨论】：

【解决方案1】：

您可以在几个模型上分割您的数据，这些模型的输出将输入到下一个模型，这将为您提供结果。基本上是它的RNN架构。由于内存限制，将如此大量的数据放在一个网络中是不可能的。

【讨论】：