使用分类数据作为特征/目标而不对其进行编码答案

【问题标题】：Use categorical data as feature/target without encoding it使用分类数据作为特征/目标而不对其进行编码
【发布时间】：2020-07-16 16:55:35
【问题描述】：

我最近发现了一个模型，可以根据叶子的大小对爱尔兰花进行分类。有 3 种类型的花作为目标（因变量）。据我所知，分类数据应该被编码，以便它可以用于机器学习。然而，在模型中，数据直接使用，无需编码过程。谁能帮助解释何时使用编码？提前谢谢！

【问题讨论】：

您使用哪种编程语言？它是什么型号？请显示数据示例和一些可以澄清您的问题的代码。如果模型是在 R 中构建的，则分类变量可能被视为因素。这意味着它们是数字编码的。如果模型是用 python 构建的，那很可能不好。

【解决方案1】：

相关问题 - 连续特征变量的编码。最初，Iris 数据是由 Fisher 在发表线性判别分类器时发布的。

一般来说，有以下区别：

线性判别分析和二次判别分析是实值分类器。尝试添加离散变量作为额外输入是行不通的。已经开发了在判别分析中使用指标变量（统计中使用的名称）的特殊程序。此外，k-最近邻分类器实际上只适用于实值特征变量。

朴素贝叶斯分类器最常用于具有离散特征的分类问题。当您不想假设特征变量之间的条件独立时，可以将多项分类器应用于离散特征。 insight classifiers 是一个分类器服务，可以一次性为您完成所有这些工作。

神经网络和支持向量机结合了实值和离散特征。我的建议是为每个离散结果使用一个单独的输入节点 - 不要使用一个单独的输入节点，其提供的值如下：(0：小，1：轻微，2：中等，3：较大，4：大）。每个结果编码一个输入节点将改善您的训练结果并产生更好的测试集性能。

随机森林分类器还无缝地结合了实值和离散特征。

最后的建议是训练和测试集至少比较 4 种不同类型的分类器，因为没有通用的最佳分类器类型。

【讨论】：