【问题标题】:How to change features threshold of decision trees after applying one hot encoder?应用一个热编码器后如何改变决策树的特征阈值?
【发布时间】:2021-01-31 21:08:12
【问题描述】:

我的数据框中有一些字符串(女性 x 男性、地区等),我想拟合决策树。因此,我在所有这些分类特征中应用了一个热编码器——它返回了一堆包含 0 和 1 的新列。

但是,决策树中特征阈值的默认值为 0.5。这对这些分类列没有意义。

有人知道我如何在 python 中一次更改大量列的阈值(无需输入每列的名称)吗?

我想要类似:女性列分为 0 和 1。我想在计算统计数据(AUC、ROC、ACC 等)之前完成所有这些操作。

ps:我还有一些数值数据(例如收入),所以我无法更改所有列的阈值 ps2: 分类 1 和 0 在第 6 到 30 列。

【问题讨论】:

    标签: python python-3.x data-science decision-tree


    【解决方案1】:

    嗯,二进制特征的阈值 0.5 确实有意义。 这只是意味着当特征取值 > 0.5(因此为 1)时,将拆分(比如说)向右,并且特征取值

    更改阈值是没有意义的:0 到 1 之间的任何值都与 0.5 具有相同的效果,小于 0 或大于 1 的值意味着没有进行拆分,所有观察都转到同一个子节点。

    【讨论】:

      猜你喜欢
      • 2020-06-24
      • 2017-02-24
      • 2021-08-31
      • 2015-12-11
      • 2019-04-29
      • 2021-06-07
      • 2020-09-25
      • 2018-04-06
      • 2018-05-15
      相关资源
      最近更新 更多