【发布时间】:2014-12-31 00:09:12
【问题描述】:
我有一个分类问题,我的标签是等级,0 - 100,增量为 1(例如 1、2、3、4)。
我有一个数据集,其中每一行都有一个名称、文本语料库和一个评级 (0 - 100)。
我正在尝试从文本语料库中提取可以输入分类器的特征,该分类器将每行输出相应的评分 (0 - 100)。
对于特征选择,我正在考虑从基本的词袋开始。然而,我的问题在于分类算法。 sci-kit learn 中是否有支持此类问题的分类算法?
我正在阅读http://scikit-learn.org/stable/modules/multiclass.html,但所描述的算法似乎支持完全离散的标签,而我有一组连续标签。
编辑:我将我的收视率分类的情况如何?例如,我可以有 10 个标签,每个标签 1-10。
【问题讨论】:
-
如果你承认你的类是连续的,为什么不使用回归呢?
-
啊,我对回归不熟悉,似乎是这个问题的自然解决方案?
-
是的,当您的目标变量是某种连续值且偏差无关紧要时(可以预测 36 而不是 37,但预测 90 而不是 11 是不行的)。您真正想要做的是最小化预测错误值的概率,但预测远值的概率。这就是回归算法的用途。任何名称以 Regressor 结尾的算法都可以工作。
标签: machine-learning scikit-learn classification corpus multilabel-classification