【问题标题】:test and train in same data or different data在相同数据或不同数据中测试和训练
【发布时间】:2017-01-10 23:11:34
【问题描述】:

我有两个类的数据集,我用它来分类朴素贝叶斯分类器。 首先:在我得到的相同数据中训练和测试分类器:

Accuracy: 71.1262
False negative rate: FN/FN+TP = FN/P= 284/295 = 0.840 
False positive rate:  FP/FP+TN  =  FP/N = 93/886 = 0.104 
Sensitivity: Recall:True positive rate:  TP/TP+FN = TP/P = 0.1593
Specificity: True negative rate: TN/TN+FP = TN/N = 0.8950
Precision :  Positive Predictive Value: TP/TP+FP = 0.3357
Negative Predictive Value: TN/TN+FP = 0.7618

其次:我在样本中训练分类器,然后在我得到的另一个样本中进行测试:

Accuracy: 0.7704
False negative rate: FN/FN+TP=FN/P =147/222 = 0.662
False positive rate: FP/FP+TN= FP/N = 73/736=0.099
Sensitivity: Recall:True positive rate: TP/TP+FN=TP/P=75/222= 0.3378
Specificity: True negative rate:TN/FP+FP=TN/N= 663/736 = 0.9008
Precision :  Positive Predictive Value:TP/TP+FP= 0.5068

实际上,当我尝试使用决策树和神经网络时,我得到了几乎相似的结果 这是正常的结果吗?这些数据到底有什么问题?

【问题讨论】:

  • 您的课程显然不平衡,这使您在 FN 和 FP 率之间存在很大差异。你能在这些标签上放一些绝对值吗?比如你有多少正面/负面的例子?
  • 在第一个实验中:数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 1181。负类大小 886。正类大小 295。
  • 在第二个实验中:数据序列大小 1181。负类大小 886。正类大小 295。数据测试大小 958。负类大小 736。正类大小 222。
  • 问题出在哪里?测试集上的准确率优于训练集;这是一个相当不错的结果。

标签: machine-learning classification naivebayes


【解决方案1】:

可能存在多个问题,ML 是一个不断进行试验和测试的过程,并且有多种方法可以“诊断”您的算法。我建议执行特征工程并验证您的数据集中是否存在倾斜类、绘制学习曲线、执行交叉验证和模型选择、分析是否需要特征缩放和归一化、验证多个正则化参数等

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-12
    • 2017-05-11
    • 1970-01-01
    • 1970-01-01
    • 2015-05-25
    • 2015-03-12
    • 1970-01-01
    • 2017-04-05
    相关资源
    最近更新 更多