机器学习学习比价（四）-模型评估与选择

绪论
模型评估与选择（1）
模型评估与选择（2）
模型评估与选择（3）
线性模型
决策树
神经网络
支持向量机
贝叶斯分类
集成学习
聚类
降维与度量学习
特征选择与稀疏学习
计算学习理论
半监督学习
概率图模型
规则学习
强化学习

模型评估与选择（3）

本次学习的都是一些检验不同学习器的性能是否相同的方法，在统计的过程当中大家应该都学过。

2.4.2 交叉验证t检验

对于两个学习器A和B，如果我们使用k折交叉验证法得到的测试错误率分
机器学习学习比价（四）-模型评估与选择
试集上得到的结果，则可以用k折交叉验证“成对t检验”来进行比较检验。
对每一折的测试错误率求差

很简单，用t检验比较两组数是否相等。

但是通常情况下，想要进行有效的假设检验，一个重要的前提是测试错误率均为泛化错误率的独立采样，然而，在使用交叉验证的时候，在不同轮次的训练集会有一定程度的重叠（比如说，10折交叉验证，每次就会有8个分组是相同的），这使得测试错误率实际上并不独立，会导致过高估计假设成立的概率。为缓解这一问题，可采用“5*2交叉验证”。

即做5次2折交叉验证，这样的化，在每一个轮次中，就不会出现分组重叠的情况。

对两个学习器A和B，第i次2折交叉验证将产生两对测试错误率，我们对他们分别求差，得到第1折上的差
机器学习学习比价（四）-模型评估与选择

2.4.3 McNemar检验
机器学习学习比价（四）-模型评估与选择

2.4.4 Friedman检验与Nemenyi

交叉验证t检验和McNemar检验都是在一个数据集上比较两个算法的性能，而当我们需要在一个数据集上对多个算法进行比较时，一种做法是在每个数据集上分别列出两两比较的结果；另一种方法是基于算法排序的Friedman检验。