【发布时间】:2014-12-10 04:58:43
【问题描述】:
我知道这是一个非常模糊的问题,但我正在尝试找出进行文档分类的最佳方法。我有两套训练和测试。训练集是一组文档,每个标记为 1 或 0。如果文档是信息摘要,则标记为 1,否则标记为 0。我正在尝试创建一个监督分类器。我无法决定使用哪个 nlp 工具包。我在想nltk。你有什么建议吗?我必须用python编写分类器。还有任何特定类型的分类器。我一直在做研究,但似乎无法得到一个好的答案。
【问题讨论】:
-
可能只是我,但似乎很不清楚您在这里要问什么 - 您能否尝试重新表述您想要做的事情,甚至可以使用您正在处理的数据示例?
-
@MattCoubrough 在我看来这是一个相对明确的问题,但对于 SO 来说可能过于宽泛。简短的回答是,有很多在不同数据集上的表现都不同。
-
好的,np。我认为这有点模糊,但不确定。我想到了朴素贝叶斯,但它没有达到我想要的精度并且不知道下一步该怎么做
-
@user3750474 这不是很模糊,只是一个约束不足的问题。我的回答更深入一点,但事实是,很难提前知道你能达到什么准确度。
-
@user3750474 如果您更好地描述您的数据集,则更容易给出更准确的答案。但正如我在回答中提到的,朴素贝叶斯和 SVM 是您的最佳选择。
标签: python machine-learning nlp nltk