在训练机器学习模型时，我们是否需要一个热编码或标签编码目标列答案

【问题标题】：do we need to one hot encode or label encode target column while training machine learning models在训练机器学习模型时，我们是否需要一个热编码或标签编码目标列
【发布时间】：2020-02-29 03:10:00
【问题描述】：

具有列的数据集- 目标列——水果名称（数据——芒果、橙、苹果），特征列 -- size(numeric),color(red,green,yellow),weight(numeric)

我对颜色列进行了一次热编码并准备了特征，每一列都有数值。

我想使用分类模型进行预测。

如果我有一个我必须进行预测的目标列，它由分类数据（例如苹果、橙色、芒果）组成，所以如果我想使用逻辑回归模型，它是一个基于分类的模型，我是否也需要对目标列进行热编码或标签编码，就像我们对特征列（名称颜色）所做的那样。

谢谢你

【问题讨论】：

标签： machine-learning pyspark data-science one-hot-encoding

【解决方案1】：

不，它会起作用，因为逻辑回归会根据您的输入 X 返回 Y = y 的概率。

【讨论】：

实际上我要求所有的分类模型......因为当我使用这些模型进行训练时，预测总是带有标签索引而不是实际名称。假设预测为“橙色”，则输出为 2，或者预测为“苹果”，则输出为 1，依此类推。如何处理这种类型的场景，因为我的模型不接受字符串列，它必须在传递给任何机器学习算法之前转换为数字格式。
我建议您将所有内容都转换为数字数据，然后您可以使用字典来解码您的输出