【发布时间】:2015-12-11 19:59:28
【问题描述】:
存在一个非常大的自己收集的数据集,大小为 [2000000 12672],其中行显示实例数,列显示特征数。该数据集在本地硬盘上占用 ~60 GB。我想在这个数据集上训练一个线性 SVM。问题是我只有 8 GB 的 RAM! 所以我无法一次加载所有数据。有什么解决方案可以在这个大型数据集上训练 SVM?生成数据集是我自己的愿望,目前是 HDF5 格式。 谢谢
【问题讨论】:
-
看看
ff包 -
@tguzella
ff包在这里没有帮助。 -
@Slater Tyranus 为什么不呢?
-
@tguzella 因为问题不仅仅是加载文件,而是在 SVM 中使用它。如果只是访问文件
ff会很好,但它不适合在离线算法中进一步使用。 -
@Saeed 这是回归问题还是分类问题?如果分类,有多少类?
标签: r machine-learning bigdata svm libsvm