【发布时间】:2015-06-07 22:44:42
【问题描述】:
我正在尝试将机器学习应用于 Kaggle.com 数据集。我的数据集的尺寸是 244768 x 34756。现在在这个尺寸下,scikit 算法都不起作用。
我以为我会应用 PCA ,但即使这样也不能扩展到这个数据集。
无论如何我可以从我的训练数据集中减少冗余数据吗?我可以通过应用 PCA 来减小维度,但如果我可以应用 PCA。
由于我正在进行文档分类,我通过减小词向量大小将我的数据集重新采样为 244768*5672。 PCA 甚至不能应用于这个数据集。
我可以通过这种方法应用 PCA。假设我的矩阵是 A - X = A.T * A pca(X)(X 变为 5672 x 5672 矩阵) 这会给我错误的答案吗?
当我应用逻辑回归时,我可以增量训练模型吗,.ie
如果 A = 10000 x 500 我可以拿 1000 x 500 到logistic.fit(A) 然后对其他行做同样的事情吗?这种训练有错吗?
【问题讨论】:
-
你试过IncrementalPCA吗?
-
您使用的是 32 位还是 64 位系统? 64 位可能会有所帮助。
-
您可以在滑动窗口中读取数据集并汇总结果吗?
-
Pyan,我使用的是 64 位。
-
SGDClassifier / SGDRegressor 应该适用于这个数据集。这些也允许您进行增量训练。但只要您的数据适合 ram,您就不必担心。
标签: python machine-learning scikit-learn pca logistic-regression