机器学习技法------Blending and Bagging

Blending

在训练样本中学习得到若干个g_t
G= 1/T ∑ _t g_t
机器学习技法------Blending and Bagging
则：

此时是对于一个样本x 如果是对于所有的样本那么就变成了
avg（E_out(g_t)）= avg(ε(g_t-G)²)+E_out(G)
此时可以看做
E_out(G) 代表多个g和真正分布之间的差距叫做bias
而 g_t 和G之间的差距称作 variance

对于回归问题而言 blending for regression 需要优化的目标函数为
机器学习技法------Blending and Bagging

仔细观察其实可以将其理解为特征空间转化之后的线性回归问题即
机器学习技法------Blending and Bagging
这里的i代表的是特征转换之后的特征维度的大小
这里做的特征转化 Φ（x_n）=(g₁(x_n),g₂(x_n),g₃(x_n)…g_n(x_n))

那么在实际的使用过程中首先使用训练样本D_train训练得到若干个 g₁^-,g₂^-,…g_n^-,然后将验证集中的数据D_val 通过上述所得的g^-进行转化由（x_n,y_n）转化为 (z_n,y_n) 其中z_n=(g₁^-(x_n),g₂^-(x_n),g₃^-(x_n)…)
机器学习技法------Blending and Bagging
注意回传的时候传回的是正常的g而非 g^-

同时不一定非要使用线性的Blending，如果使用非线性的模型做blending 则称为stacking
机器学习技法------Blending and Bagging

而对于blending 无论是给每一个hypothesis 一个固定的权重（voting，average）的uniform blending 还是使用线性模型组合的linear blending 或者使用非线性模型进行的stacking ，其前提条件都是我们已经有了一系列的hypothesis 我们使用g表示，那么能不能通过一遍学习得到g一边将g就行组合呢？

下面是可能得到不同的g
机器学习技法------Blending and Bagging

那我们接下来想要得到的是对于我们手上固定的训练样本如何通过这些训练样本得到若干个不同的g
这时需要引入bootstrap的概念
bootstrap 要做的是在训练样本D中每次有放回的区N笔资料这里选取N笔资料所有可能性为N^N种
使用bootstrap得到的不同样本训练不同的hypothesis 可得不同hypothesis

机器学习技法------Blending and Bagging