【发布时间】:2013-09-25 02:49:08
【问题描述】:
我有一个分类问题,我需要找出解决它的最佳方法。我有一组培训文档,其中文档中的一些句子和/或段落标有一些标签。并非所有句子/段落都被标记。一个句子或段落可能有多个标签/标签。我想做的是制作一些模型,在给定新文档的情况下,它将为文档中的每个句子/段落提供建议的标签。理想情况下,它只会给我高概率的建议。
如果我使用 nltk NaiveBayesClassifier 之类的东西,结果会很差,我认为是因为它没有考虑训练文档中的“未标记”句子,其中包含许多与标记句子相似的单词和短语。这些文件是法律/金融性质的,并且充满了法律/金融术语,其中大部分应该在分类模型中打折。
除了来自训练集的标记数据之外,是否有一些比朴素贝叶斯更好的分类算法,或者有什么方法可以将未标记的数据推入朴素贝叶斯?
【问题讨论】:
-
您能否粗略估计有多少数据被标记,有多少没有。由于 NBC 是一个概率模型,它可能会偏向于大量数据。
-
你有多少数据?您可能需要至少数千个数据才能进行最佳分类。
-
另外,你看过Chapter 6 of the NLTK book吗?他们在朴素贝叶斯之上谈论决策树和最大熵模型。 SVM 可能也值得一看 - 您可以通过 nltk.classify 包访问它们和其他分类方法,该包是 wrapper 周围的 scikit-learn library。
标签: machine-learning nlp classification nltk