【问题标题】:Machine learning algorithm to classify only positive and unlabeled data机器学习算法仅对正数据和未标记数据进行分类
【发布时间】:2014-05-17 08:43:08
【问题描述】:

我正在尝试对仅具有正面特征和未标记数据的文本进行分类。我只想让算法识别正面数据,并希望将其他所有内容标记为负面。对此类数据进行分类的好的机器学习算法是什么?我尝试在 Weka 中使用不同的算法,但几乎所有分类器都会给出很多误报。

【问题讨论】:

    标签: algorithm machine-learning weka


    【解决方案1】:

    如果您认为未标记的数据大部分是负数,那么最好的办法可能是将所有未标记的数据标记为“负数”并运行您选择的分类器。请注意,如果您得到预测为阳性的未标记测试数据点,这并不意味着答案是错误的。您的一些未标记数据可能是积极的。所以很难判断你的分类器在你的环境中表现如何。如果您认为您的未标记数据可能偏向于阳性数据,那么您最好对阳性数据使用所谓的“一类分类器”,其中包括一类 SVM 在内的流行示例。

    【讨论】:

    • 感谢您的回复。我有一个训练集,其中正类具有分类器可以学习的特征。但是负类没有任何特征。正类很容易识别,但负类只是随机的。所以,我认为我应该能够将文本分类为积极与否。那会是一类分类器吗?
    猜你喜欢
    • 2019-11-08
    • 2016-04-20
    • 2019-10-26
    • 2021-05-13
    • 2018-03-05
    • 2016-05-25
    • 2012-03-14
    • 2018-09-07
    • 2019-01-27
    相关资源
    最近更新 更多