在相同数据或不同数据中测试和训练答案

【问题标题】：test and train in same data or different data在相同数据或不同数据中测试和训练
【发布时间】：2017-01-10 23:11:34
【问题描述】：

我有两个类的数据集，我用它来分类朴素贝叶斯分类器。首先：在我得到的相同数据中训练和测试分类器：

Accuracy: 71.1262
False negative rate: FN/FN+TP = FN/P= 284/295 = 0.840 
False positive rate:  FP/FP+TN  =  FP/N = 93/886 = 0.104 
Sensitivity: Recall:True positive rate:  TP/TP+FN = TP/P = 0.1593
Specificity: True negative rate: TN/TN+FP = TN/N = 0.8950
Precision :  Positive Predictive Value: TP/TP+FP = 0.3357
Negative Predictive Value: TN/TN+FP = 0.7618

其次：我在样本中训练分类器，然后在我得到的另一个样本中进行测试：

Accuracy: 0.7704
False negative rate: FN/FN+TP=FN/P =147/222 = 0.662
False positive rate: FP/FP+TN= FP/N = 73/736=0.099
Sensitivity: Recall:True positive rate: TP/TP+FN=TP/P=75/222= 0.3378
Specificity: True negative rate:TN/FP+FP=TN/N= 663/736 = 0.9008
Precision :  Positive Predictive Value:TP/TP+FP= 0.5068

实际上，当我尝试使用决策树和神经网络时，我得到了几乎相似的结果这是正常的结果吗？这些数据到底有什么问题？

【问题讨论】：

您的课程显然不平衡，这使您在 FN 和 FP 率之间存在很大差异。你能在这些标签上放一些绝对值吗？比如你有多少正面/负面的例子？
在第一个实验中：数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 1181。负类大小 886。正类大小 295。
在第二个实验中：数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 958。负类大小 736。正类大小 222。
问题出在哪里？测试集上的准确率优于训练集；这是一个相当不错的结果。

标签： machine-learning classification naivebayes

【解决方案1】：

可能存在多个问题，ML 是一个不断进行试验和测试的过程，并且有多种方法可以“诊断”您的算法。我建议执行特征工程并验证您的数据集中是否存在倾斜类、绘制学习曲线、执行交叉验证和模型选择、分析是否需要特征缩放和归一化、验证多个正则化参数等

【讨论】：