【问题标题】:Machine Learning -Issues with big dataset机器学习 - 大数据集的问题
【发布时间】:2015-06-07 22:44:42
【问题描述】:

我正在尝试将机器学习应用于 Kaggle.com 数据集。我的数据集的尺寸是 244768 x 34756。现在在这个尺寸下,scikit 算法都不起作用。

我以为我会应用 PCA ,但即使这样也不能扩展到这个数据集。

无论如何我可以从我的训练数据集中减少冗余数据吗?我可以通过应用 PCA 来减小维度,但如果我可以应用 PCA。

由于我正在进行文档分类,我通过减小词向量大小将我的数据集重新采样为 244768*5672。 PCA 甚至不能应用于这个数据集。

我可以通过这种方法应用 PCA。假设我的矩阵是 A - X = A.T * A pca(X)(X 变为 5672 x 5672 矩阵) 这会给我错误的答案吗?

当我应用逻辑回归时,我可以增量训练模型吗,.ie

如果 A = 10000 x 500 我可以拿 1000 x 500 到logistic.fit(A) 然后对其他行做同样的事情吗?这种训练有错吗?

【问题讨论】:

  • 你试过IncrementalPCA吗?
  • 您使用的是 32 位还是 64 位系统? 64 位可能会有所帮助。
  • 您可以在滑动窗口中读取数据集并汇总结果吗?
  • Pyan,我使用的是 64 位。
  • SGDClassifier / SGDRegressor 应该适用于这个数据集。这些也允许您进行增量训练。但只要您的数据适合 ram,您就不必担心。

标签: python machine-learning scikit-learn pca logistic-regression


【解决方案1】:

您可以在几个模型上分割您的数据,这些模型的输出将输入到下一个模型,这将为您提供结果。 基本上是它的RNN架构。 由于内存限制,将如此大量的数据放在一个网络中是不可能的。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-09-26
    • 2017-04-20
    • 2017-06-25
    • 2020-06-28
    • 2016-05-25
    • 1970-01-01
    • 2014-10-29
    • 2017-05-16
    相关资源
    最近更新 更多