【发布时间】:2018-04-08 21:04:10
【问题描述】:
我有一个 Pandas 数据框,其中包含 Encoding: latin-1 并由 ; 分隔。数据框非常大,几乎是size: 350000 x 3800。我最初想使用 sklearn,但我的数据框缺少值 (NAN values),所以我无法使用 sklearn 的随机森林或 GBM。所以我不得不使用H2O's分布式随机森林来训练数据集。主要问题是当我做h2o.H2OFrame(data) 时数据帧没有被有效地转换。我检查了提供编码选项的可能性,但文档中没有任何内容。
有人对此有想法吗?任何线索都可以帮助我。我还想知道是否有任何其他库,如 H2O 可以非常有效地处理 NAN 值?我知道我们可以估算列,但我不应该在我的数据集中这样做,因为我的列是来自不同传感器的值,如果这些值不存在则意味着传感器不存在。我只能使用 Python
【问题讨论】:
-
Xgboost 可以完美处理缺失值。
-
@CrazyElf,是的,我阅读了有关 xgboost 的信息,但问题是我无法从源代码进行构建,因为我没有在工作场所的笔记本电脑上安装 git 或 mingw 的管理员权限。但我可以使用 pip,不幸的是,xgboost 对 pip 的支持已被删除
-
您可以尝试从这里安装 xgboost:lfd.uci.edu/~gohlke/pythonlibs/#xgboost 对我来说效果很好。
-
@CrazyElf 谢谢你的链接,我会立即尝试
-
@CrazyElf:链接中的轮子文件适用于 Windows,我使用的是 Linux,我忘了提及
标签: python machine-learning h2o