【问题标题】:Stanford classifier cross validation averaged or aggregate metrics斯坦福分类器交叉验证平均或聚合指标
【发布时间】:2016-07-21 13:21:23
【问题描述】:

使用Stanford Classifier,可以通过在属性文件中设置选项来使用交叉验证,例如10倍交叉验证:

crossValidationFolds=10
printCrossValidationDecisions=true
shuffleTrainingData=true
shuffleSeed=1

运行此程序将按折叠输出各种指标,例如精度、召回率、准确度/微平均 F1 和宏观平均 F1。

是否可以选择获取所有 10 个准确度/微观平均 F1 或所有 10 个宏观平均 F1 的平均或其他综合得分作为输出的一部分?

在 Weka 中,默认情况下,10 倍交叉验证后的输出包括所有折叠的平均指标。斯坦福分类器中是否也有这样的选项?拥有最终精度、召回率或 F1 分数,并像在 Weka 中一样针对它优化参数非常有用,我想用斯坦福分类器来做到这一点。怎么样?

【问题讨论】:

    标签: nlp weka stanford-nlp


    【解决方案1】:

    当我运行 10 折时,我看到了该输出。当我运行这个命令时:

    java -cp "*" edu.stanford.nlp.classify.ColumnDataClassifier -prop examples/cheese2007.prop -crossValidationFolds 10
    

    我在输出中看到了这个(在### Fold 9 之后)

    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - 181 examples in test set
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 2: TP=109 FN=6 FP=7 TN=59; Acc 0.928 P 0.940 R 0.948 F1 0.944
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 1: TP=59 FN=7 FP=6 TN=109; Acc 0.928 P 0.908 R 0.894 F1 0.901
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Accuracy/micro-averaged F1: 0.92818
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Macro-averaged F1: 0.92224 
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average accuracy/micro-averaged F1: 0.93429
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average macro-averaged F1: 0.92247
    

    【讨论】:

    • 我明白了,它在最后一折的正下方打印平均微观和宏观 F1。有没有办法获得其他度量(精度、召回率)的平均值?或者至少输出 csv 中的所有度量?
    • 我认为这个输出属于最后一个折叠。这不是他的平均折叠次数。
    猜你喜欢
    • 1970-01-01
    • 2017-08-04
    • 2015-11-12
    • 1970-01-01
    • 2015-04-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多