【问题标题】:do we need to one hot encode or label encode target column while training machine learning models在训练机器学习模型时,我们是否需要一个热编码或标签编码目标列
【发布时间】:2020-02-29 03:10:00
【问题描述】:

具有列的数据集- 目标列——水果名称(数据——芒果、橙、苹果), 特征列 -- size(numeric),color(red,green,yellow),weight(numeric)

我对颜色列进行了一次热编码并准备了特征,每一列都有数值。

我想使用分类模型进行预测。

如果我有一个我必须进行预测的目标列,它由分类数据(例如苹果、橙色、芒果)组成,所以如果我想使用逻辑回归模型,它是一个基于分类的模型,我是否也需要对目标列进行热编码或标签编码,就像我们对特征列(名称颜色)所做的那样。

谢谢你

【问题讨论】:

    标签: machine-learning pyspark data-science one-hot-encoding


    【解决方案1】:

    不,它会起作用,因为逻辑回归会根据您的输入 X 返回 Y = y 的概率。

    【讨论】:

    • 实际上我要求所有的分类模型......因为当我使用这些模型进行训练时,预测总是带有标签索引而不是实际名称。假设预测为“橙色”,则输出为 2,或者预测为“苹果”,则输出为 1,依此类推。如何处理这种类型的场景,因为我的模型不接受字符串列,它必须在传递给任何机器学习算法之前转换为数字格式。
    • 我建议您将所有内容都转换为数字数据,然后您可以使用字典来解码您的输出
    猜你喜欢
    • 2019-11-28
    • 1970-01-01
    • 2017-09-03
    • 2014-10-21
    • 2018-03-19
    • 1970-01-01
    • 2018-10-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多