【发布时间】:2012-04-28 03:16:24
【问题描述】:
我在 csv 文件中有非常大的数据集(1,700,000 个原始数据和 300 个稀疏特征)。 - 它有很多缺失值。 - 数据在数值和分类值之间变化。 - 因变量(类)是二进制的(1 或 0)。 - 数据高度倾斜,积极响应的数量很少。
现在我需要对这些数据应用回归模型和任何其他机器学习算法。
我是新手,我需要帮助.. - 在回归模型的情况下如何处理分类数据?缺失值是否对其影响太大? - 对于像这样的大型、稀疏、倾斜的数据,我可以尝试的最佳预测模型是什么? - 你建议我使用什么程序?我尝试了 Weka,但它甚至无法打开那么多数据(内存故障)。我知道 matlab 可以打开数字 csv 或未混合的类别 csv,除了必须估算缺失值以允许它打开文件。我对R有点了解。
- 我正在尝试使用 excel、access 和 perl 脚本来操作数据。对于这么多的数据,这真的很难。 excel不能打开超过近1M的记录,访问不能打开超过255列。任何建议。
提前感谢您的帮助
【问题讨论】:
-
好问题!您可能想查看分类和回归树 (en.wikipedia.org/wiki/…),它们在 R 中的 RPART 包 (statmethods.net/advstats/cart.html) 中实现。
标签: database data-mining