涉及数字范围作为标签的多标签分类答案

【问题标题】：Multi-label classification involving range of numbers as labels涉及数字范围作为标签的多标签分类
【发布时间】：2014-12-31 00:09:12
【问题描述】：

我有一个分类问题，我的标签是等级，0 - 100，增量为 1（例如 1、2、3、4）。

我有一个数据集，其中每一行都有一个名称、文本语料库和一个评级 (0 - 100)。

我正在尝试从文本语料库中提取可以输入分类器的特征，该分类器将每行输出相应的评分 (0 - 100)。

对于特征选择，我正在考虑从基本的词袋开始。然而，我的问题在于分类算法。 sci-kit learn 中是否有支持此类问题的分类算法？

我正在阅读http://scikit-learn.org/stable/modules/multiclass.html，但所描述的算法似乎支持完全离散的标签，而我有一组连续标签。

编辑：我将我的收视率分类的情况如何？例如，我可以有 10 个标签，每个标签 1-10。

【问题讨论】：

如果你承认你的类是连续的，为什么不使用回归呢？
啊，我对回归不熟悉，似乎是这个问题的自然解决方案？
是的，当您的目标变量是某种连续值且偏差无关紧要时（可以预测 36 而不是 37，但预测 90 而不是 11 是不行的）。您真正想要做的是最小化预测错误值的概率，但预测远值的概率。这就是回归算法的用途。任何名称以 Regressor 结尾的算法都可以工作。

【解决方案1】：

您可以使用多变量回归而不是分类。 U 可以将文本语料库中的 n-gram 特征聚类成一个字典，并用它来形成一个特征集。使用此功能集，训练一个输出可以是连续值的回归模型。 U可以将输出的实数四舍五入得到1-100的离散标签

【讨论】：

啊，看来多元回归确实是一个更自然的解决方案。 scikit-learn 回归会解决这个问题吗？我假设逻辑回归是一种分类器算法，而不是您所指的。
是的，逻辑回归是一种分类算法。您可以尝试线性回归或岭回归或随机森林回归。
查看 scikit-learn.org/stable/modules/linear_model.html 以了解线性和多项式回归。您可能必须尝试使用不同的多项式模型来找出最适合您的模型。我认为你应该先从线性模型开始，然后再尝试其他多项式变体。如果这不能满足你的需要，其他建议也是寻找回归森林

【解决方案2】：

您可以使用OneHotEncoder 预处理您的数据，将您的一个 1 到 100 特征转换为与区间 [1..100] 的每个值相对应的 100 个二进制特征。然后，您将拥有 100 个标签并学习多类分类器。

不过，我建议改用回归。

【讨论】：