【发布时间】:2018-10-06 04:30:00
【问题描述】:
我的数据集有 copd 文档作为阳性数据 (86) 和 malaria(20) + diarreha(20) + 象皮病 (20) 作为阴性数据。所以我的数据集中的总文档为 146,其中 86 为阳性,60 为阴性。我采用了训练比例:测试是 3:1.ngram 范围是 (1,1)。我还从特征列表中删除了所有数字特征。我将特征的 tfidf 作为输入。我使用的是朴素贝叶斯算法用于训练和测试。准确度 = 89%,精确度 = 84%,召回率 = 100%。现在,我正在获取新文档以在我的数据集之外进行测试。其中 20 个文档为阳性(copd),20 个文档为阴性(不在我们的数据集中,即不在我们的数据集中的疾病) 现在它几乎将所有文档都预测为正数,或者我们可以说准确率随着值的增大而降低。我的问题是我在这里做错了什么?为什么我的分类器不适用于新文档? 我们将不胜感激任何类型的帮助。
【问题讨论】:
标签: python-3.x machine-learning svm naivebayes