使用 t 检验比较算法的性能答案

【问题标题】：use of t-test to compare performance of algorithms使用 t 检验比较算法的性能
【发布时间】：2014-01-23 21:28:40
【问题描述】：

我需要一点指导。我必须使用简单或配对 t 检验来比较多种算法的分类性能。

假设我有三个数据集（A、B、C），其中包含训练和测试样本。我正在运行 3 种算法（SIFT、SURF、ORB）并计算分类精度，例如 0.9 意味着 90% 的图像与测试数据集正确匹配。

假设我得到下表：

Dataset     SIFT      SURF      ORB
A          0.9        0.88     0.34
B          0.84       0.67     0.45
C          0.90       0.45     0.456

您能否指导我如何使用简单的 t 检验比较这些算法的性能？表格清楚地表明 SIFT 做得更好我如何使用 t-test 来计算那个东西？

任何指导将不胜感激。谢谢。

【问题讨论】：

您不能使用每组三个点的 t 检验（计算均值和标准差不准确）
事实上我有 5-10 个数据集测量值。这只是一个分析的例子。 . . bcz 无论如何我都必须使用一些东西，因为我被指示这样做。 .或任何其他简单的测试来衡量？
我会将问题提交给stats.stackexchange.com，但您也应该查看方差分析（anova1、anova2、anovan）。

【解决方案1】：

不同算法之间的分类精度差异可以通过统计方法来评估，例如成对学生 T 检验

【讨论】：