Sklearn Random Forest 不同标签编码的不同精度值答案

【问题标题】：Sklearn Random Forrest different accuracy values for different label encodingsSklearn Random Forest 不同标签编码的不同精度值
【发布时间】：2020-09-03 15:52:58
【问题描述】：

我正在使用 sklearn Random Forrest 来训练我的模型。使用与模型相同的输入特征，我首先尝试使用 label_binarize 传递目标标签以创建目标标签的热编码，然后尝试使用 label_encoder 对目标标签进行编码。在这两种情况下，我都会得到不同的准确度分数。发生这种情况是否有特定原因，因为我只是使用不同的方法对标签进行编码而不更改任何输入特征。

【问题讨论】：

标签： scikit-learn random-forest one-hot-encoding label-encoding

【解决方案1】：

不是因为标签，而是随机森林的随机性。

尝试修复 random_state 以避免这种情况。

【讨论】：

我在两次运行中都使用了一个恒定的随机状态

【解决方案2】：

https://datascience.stackexchange.com/questions/74364/random-forrest-sklearn-gives-different-accuracy-for-different-target-label-encod

基本上，当您将目标标签编码为一个热编码时，sklearn 将其视为多标签问题，而标签编码器提供一维数组，而 sklearn 将其视为多类问题。

https://scikit-learn.org/stable/modules/multiclass.html

【讨论】：