【问题标题】:How do I specify the positive class in an H2O random forest or other binary classifier?如何在 H2O 随机森林或其他二元分类器中指定正类?
【发布时间】:2017-10-20 17:05:34
【问题描述】:

我正在使用 Python 在 H2O 中构建二元分类模型。我的'y'值是'ok'和'bad'。我需要使用 ok =negative class= 0 和 bad = positive class= 1 来计算指标。但是,我看不出有任何方法可以在 H2O 中设置它。例如这里是预测和混淆矩阵的输出:

confusion matrix
        bad    ok  Error              Rate
  bad  3859   631 0.1405    (631.0/4490.0)
   ok   477  1069 0.3085    (477.0/1546.0)
Total  4336  1700 0.1836   (1108.0/6036.0)


>>> predictions.head(10)
  predict       bad        ok
0     bad  0.100604  0.899396
1     bad  0.100604  0.899396
2     bad  0.112232  0.887768
3      ok  0.068917  0.931083
4      ok  0.089706  0.910294
5      ok  0.089706  0.910294
6      ok  0.089706  0.910294
7     bad  0.126182  0.873818
8     bad  0.126182  0.873818
9      ok  0.092306  0.907694

H2O 似乎是根据标签之间的字母顺序任意决定的。如果我将标签更改为“ok”和“sad”,我会得到:

confusion matrix
         ok   sad  Error             Rate
   ok   798   732 0.4784   (732.0/1530.0)
  sad   211  4381 0.0459   (211.0/4592.0)
Total  1009  5113 0.1540   (943.0/6122.0)


>>> predictions.head(10)
  predict        ok       sad
0     sad  0.215206  0.784794
1     sad  0.211073  0.788927
2     sad  0.211073  0.788927
3      ok  0.236190  0.763810
4      ok  0.241641  0.758359
5      ok  0.241641  0.758359
6      ok  0.236099  0.763901
7     sad  0.162072  0.837928
8     sad  0.162072  0.837928
9     sad  0.206146  0.793854

一定有办法以编程方式设置哪个标签是正类,哪个是负类?

【问题讨论】:

    标签: python classification h2o


    【解决方案1】:

    如果 df 是您的 H2O 框架,则 df['y'] = df['y'].relevel('ok') 应将“ok”设置为 0 级。请参阅 http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/frame.html#h2o.frame.H2OFrame.relevel

    【讨论】:

    • 我有一个包含空格的关卡,并且 H2O 会抛出错误“在列中未找到级别 `spaced%20level`”,即使我可以在 df.categories() 中看到该级别(不包含%20 表示空格字符)。有没有办法解决这个问题?
    • @lampShadesDrifter 您可以用下划线或您选择的其他字符替换空格。 h2o_frame['A'] = h2o_frame['A'].set_levels([x.replace(' ', '_') for x in h2o_frame['A'].categories()])
    猜你喜欢
    • 2015-12-11
    • 2016-09-30
    • 2015-12-03
    • 1970-01-01
    • 2018-02-18
    • 2018-05-20
    • 2019-11-16
    • 2018-03-05
    • 2019-09-05
    相关资源
    最近更新 更多