【问题标题】:Significance Test for a Classification Task分类任务的显着性检验
【发布时间】:2014-09-19 06:39:38
【问题描述】:

假设对于一个分类任务,我有算法 A 和算法 B,以及大小为 M 的标记数据集。算法 A 和算法 B 都是“确定性”机器学习方法,也就是说,算法没有一些参数是随机种子,因此给定不同的随机种子,即使使用相同的数据集,训练的分类器也可以不同。

我的问题是,如果我想证明算法 A 在统计上比算法 B 更好(或更差),我应该怎么做?

【问题讨论】:

    标签: machine-learning statistics classification significance


    【解决方案1】:

    嗯,按照您描述问题的方式,检查统计差异的唯一方法是改变您的数据集。生成几个不同的数据集,并在它们上运行算法 A 和 B,比较结果(不清楚您的质量指标是结果的正确性还是花费的时间,但它是双向的)。

    【讨论】:

    • 感谢您的回答。改变数据集是什么意思?将数据集分成几个小数据集?
    • 不,我的意思是为您的问题生成几个不同的数据集。如果您只关心您的特定数据集,则不应该采用统计方法 - 只需运行两者,并定义质量标准来检查结果。
    • 假设给定数据集,算法A的准确率为88%,算法B的准确率为86.5%,我能说A优于B吗?我是否有可能证明差异 1.5% (88-86.5) 是显着的,从而使我的主张更有说服力?
    • 如果您不将其用于单个数据集 IRL,则不,您不能声明。您应该生成几个不同的数据集,并在所有数据集上运行,获取每个数据集的平均值和标准差 - 然后在其上运行 Duncan's Test...
    • 由于算法是“确定性的”,我不太明白如何获得均值和标准差。你能给我解释一下吗?此外,如果它真的很难(或不可能) 对我来说,为某些特定任务生成几个不同的数据集,我如何让人们相信 88% 优于 86.5%?(可以使用其他方法而不是显着测试)
    猜你喜欢
    • 1970-01-01
    • 2021-12-29
    • 2013-12-14
    • 2020-10-03
    • 2020-09-07
    • 1970-01-01
    • 1970-01-01
    • 2016-07-20
    • 1970-01-01
    相关资源
    最近更新 更多