【发布时间】:2013-04-11 01:31:59
【问题描述】:
我需要一个分类器来将评论分类为正面或负面。对于每个文档,我已经完成了停用词过滤和词形还原,并计算了每个术语的 tf-idf,并将它们存储到 doc_bow 中,如下所示为每个文档。
doc_bow.append((term,tfidf)).
现在,我想训练分类器,但我不知道该怎么做。我从http://streamhacker.com/2010/10/25/training-binary-text-classifiers-nltk-trainer/ 中找到了一个示例,但我仍然无法理解。 td-idf 将如何使用或影响分类器?
【问题讨论】:
-
您为
NLTK/NLTK-trainer链接了一篇文章,但没有将这个问题标记为此类 - 您目前有这两个问题吗? -
我总共有 100 条文档,我手动标记了 50 条文档评论。这是否考虑了训练集?
-
您的标记数据集就是您的训练集...
-
那么,使用 doc_bow 和训练集如何训练分类器?
-
我发布了一个答案.. 请参阅
标签: python classification