分类任务的显着性检验答案

【问题标题】：Significance Test for a Classification Task分类任务的显着性检验
【发布时间】：2014-09-19 06:39:38
【问题描述】：

假设对于一个分类任务，我有算法 A 和算法 B，以及大小为 M 的标记数据集。算法 A 和算法 B 都是“确定性”机器学习方法，也就是说，算法没有一些参数是随机种子，因此给定不同的随机种子，即使使用相同的数据集，训练的分类器也可以不同。

我的问题是，如果我想证明算法 A 在统计上比算法 B 更好（或更差），我应该怎么做？

【问题讨论】：

【解决方案1】：

嗯，按照您描述问题的方式，检查统计差异的唯一方法是改变您的数据集。生成几个不同的数据集，并在它们上运行算法 A 和 B，比较结果（不清楚您的质量指标是结果的正确性还是花费的时间，但它是双向的）。

【讨论】：

感谢您的回答。改变数据集是什么意思？将数据集分成几个小数据集？
不，我的意思是为您的问题生成几个不同的数据集。如果您只关心您的特定数据集，则不应该采用统计方法 - 只需运行两者，并定义质量标准来检查结果。
假设给定数据集，算法A的准确率为88%，算法B的准确率为86.5%，我能说A优于B吗？我是否有可能证明差异 1.5% (88-86.5) 是显着的，从而使我的主张更有说服力？
如果您不将其用于单个数据集 IRL，则不，您不能声明。您应该生成几个不同的数据集，并在所有数据集上运行，获取每个数据集的平均值和标准差 - 然后在其上运行 Duncan's Test...
由于算法是“确定性的”，我不太明白如何获得均值和标准差。你能给我解释一下吗？此外，如果它真的很难（或不可能) 对我来说，为某些特定任务生成几个不同的数据集，我如何让人们相信 88% 优于 86.5%？（可以使用其他方法而不是显着测试）