机器学习——模型评估与选择

交叉验证

k折交叉验证法

将数据集 D 划分为 k 个大小相似的互斥子集，即 D = D1 U D2υ… U D k, Di n Dj = ø (í =/j ) . 每个子集 Di 都尽可能保持数据分布的一致性，即从 D 中通过分层采样得到. 然后，每次用k-1 个子集的并集作为训练集?余 F 的那个子集作为测试集;这样就可获得 k组训练/测试集，从而可进行 k 次训练和测试? 最终返回的是这 k 个测试结果的均值。
一般来说，k取10,也叫作10折交叉验证
与留出法相似，将数据集 D 划分为 k 个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别， k 折交叉验证通常要随机使用不同的划分重复 p 次，最终的评估结果是这 p 次 k 折交叉验证结果的均值，例如常见的有"10 次 10 折交叉验证【总计训练了100次】机器学习——模型评估与选择