【发布时间】:2012-05-17 22:58:54
【问题描述】:
我正在做一个在 python 中使用朴素贝叶斯分类器进行文档分类的项目。我也使用了 nltk python 模块。文档来自路透社数据集。我执行了诸如词干提取和停用词消除之类的预处理步骤,并继续计算索引词的 tf-idf。我使用这些值来训练分类器,但准确度很差(53%)。应该怎么做才能提高准确率?
【问题讨论】:
-
你解决了什么分类任务?是主题分类还是别的什么?
标签: python nltk document-classification