Lecture 15: Validation验证

15-1 模型选择问题

什么是好的模型?答:可以让Eout最小。

但这就面临着问题:我们不可能知道Eout的值。

那么该怎么选呢?也不可以visual去选。(如果高维呢)

选Ein最小的?答:不可以,过拟合情况;或者可能有bad generalization。

一种答案:选有最好的测试结果的模型。在已有数据中留下一小部分当做做完模型的测试集。


15-2 测试集

上述模型选择问题答案的图示:

机器学习基石第十五讲笔记

用不同的模型H得到不同的Eout,再进行比较找最好的。

把所有data的gm和所有data减去validation资料的gm-相对比,有:

在验证集较小时,gm和gm-大致相同;

在验证集较大时,gm效果比gm-好。

机器学习基石第十五讲笔记


15-3 leave-one-out 交叉验证

机器学习基石第十五讲笔记

此种方法的示意图(分别是线性的和常数的):

机器学习基石第十五讲笔记

此时在data size很大时,gm和gm-几乎是相同的。


15-4 V-Fold交叉验证

leave-one-out的缺点1:若1000个点,则要做1000次。

leave-one-out的一个简单方法:linear regression,此时有leave-one-out的公式解。

leave-one-out的缺点2:做binary问题(1/0)时稳定性太差。

所以实际中不常使用。

V-Fold在leave-one-out上的改进:

机器学习基石第十五讲笔记

比如十折交叉验证时,轮流着拿九份训练,一份验证。


相关文章: