【发布时间】:2014-02-27 00:30:43
【问题描述】:
我在 R 中创建了一个 tdm 矩阵,我想将其写入文件。这是一个简单的三元组形式的大型稀疏矩阵,约为 20,000 x 10,000。当我将其转换为密集矩阵以通过 cbind 添加列时,出现内存不足错误并且该过程未完成。我不想增加我的内存。
另外,我想—— - 将 tf 和 tfidf 矩阵绑定在一起 - 将稀疏/密集矩阵保存到 csv - 运行批处理机器学习算法,例如 weka 的 J48 实现。
如何保存/加载数据集并在内存限制内运行批量 ML 算法?
如果我可以将稀疏矩阵写入数据存储,我是否可以在 R 中对稀疏矩阵并在内存限制内运行 ml 算法?
【问题讨论】:
-
请参阅
R中的glmnet包 - 它接受稀疏矩阵可能更适合您的情况。
标签: r performance machine-learning sparse-matrix large-data