机器学习基石第十五讲笔记

Lecture 15: Validation验证

15-1 模型选择问题

什么是好的模型？答：可以让Eout最小。

但这就面临着问题：我们不可能知道Eout的值。

那么该怎么选呢？也不可以visual去选。（如果高维呢）

选Ein最小的？答：不可以，过拟合情况；或者可能有bad generalization。

一种答案：选有最好的测试结果的模型。在已有数据中留下一小部分当做做完模型的测试集。

15-2 测试集

上述模型选择问题答案的图示：

机器学习基石第十五讲笔记

用不同的模型H得到不同的Eout，再进行比较找最好的。

把所有data的gm和所有data减去validation资料的gm-相对比，有：

在验证集较小时，gm和gm-大致相同；

在验证集较大时，gm效果比gm-好。

机器学习基石第十五讲笔记

15-3 leave-one-out 交叉验证

机器学习基石第十五讲笔记

此种方法的示意图（分别是线性的和常数的）：

机器学习基石第十五讲笔记

此时在data size很大时，gm和gm-几乎是相同的。

15-4 V-Fold交叉验证

leave-one-out的缺点1：若1000个点，则要做1000次。

leave-one-out的一个简单方法：linear regression，此时有leave-one-out的公式解。

leave-one-out的缺点2：做binary问题（1/0）时稳定性太差。

所以实际中不常使用。

V-Fold在leave-one-out上的改进：

机器学习基石第十五讲笔记

比如十折交叉验证时，轮流着拿九份训练，一份验证。