【发布时间】:2017-01-10 23:11:34
【问题描述】:
我有两个类的数据集,我用它来分类朴素贝叶斯分类器。 首先:在我得到的相同数据中训练和测试分类器:
Accuracy: 71.1262
False negative rate: FN/FN+TP = FN/P= 284/295 = 0.840
False positive rate: FP/FP+TN = FP/N = 93/886 = 0.104
Sensitivity: Recall:True positive rate: TP/TP+FN = TP/P = 0.1593
Specificity: True negative rate: TN/TN+FP = TN/N = 0.8950
Precision : Positive Predictive Value: TP/TP+FP = 0.3357
Negative Predictive Value: TN/TN+FP = 0.7618
其次:我在样本中训练分类器,然后在我得到的另一个样本中进行测试:
Accuracy: 0.7704
False negative rate: FN/FN+TP=FN/P =147/222 = 0.662
False positive rate: FP/FP+TN= FP/N = 73/736=0.099
Sensitivity: Recall:True positive rate: TP/TP+FN=TP/P=75/222= 0.3378
Specificity: True negative rate:TN/FP+FP=TN/N= 663/736 = 0.9008
Precision : Positive Predictive Value:TP/TP+FP= 0.5068
实际上,当我尝试使用决策树和神经网络时,我得到了几乎相似的结果 这是正常的结果吗?这些数据到底有什么问题?
【问题讨论】:
-
您的课程显然不平衡,这使您在 FN 和 FP 率之间存在很大差异。你能在这些标签上放一些绝对值吗?比如你有多少正面/负面的例子?
-
在第一个实验中:数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 1181。负类大小 886。正类大小 295。
-
在第二个实验中:数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 958。负类大小 736。正类大小 222。
-
问题出在哪里?测试集上的准确率优于训练集;这是一个相当不错的结果。
标签: machine-learning classification naivebayes