1.3 Model Selection

多项式模型的参数个数控制着模型的复杂度;加入正则项的最小二乘模型,λ\lambda控制了模型的复杂度。我们需要找到这类控制模型复杂度的参数的最佳取值来得到泛化能力最好的模型,或者在几类不同的模型中找到最佳模型。

training set, validation set, testing set.
cross-validation, leave-one-out

drawback:计算代价大,一个模型可能有多个参数需要指数级的训练次数。

Ideally,我们期望的方法满足两个条件:一是只依赖于training set,二是能在一轮训练中比较多个参数或多类模型。因此我们期望找到一个只依赖于training set且不会因为过拟合而产生偏差的performance measure。
AIC:lnp(DwML)Mlnp(\mathcal{D}|w_{ML})-M 尽量大
对数似然-模型自由度

1.4 The Curse of Dimensionality

eg.1 regular cells 将变量分割为多个单位,将落在某一单位内的点预测为该单位内包含最多的类别。单位的数目随DD指数级增长,则所需的样本数也呈指数级增长。 PRML笔记(二)

eg.2 多项式拟合 如果有DD个变量,三次多项式拟合:
y(x,w)=w0+i=1Dwixi+i=1Dj=1Dwijxixj+i=1Dj=1Dk=1Dwijkxixjxky(x,w)=w_{0}+\sum_{i=1}^{D}w_{i}x_{i}+\sum_{i=1}^{D}\sum_{j=1}^{D}w_{ij}x_{i}x_{j}+\sum_{i=1}^{D}\sum_{j=1}^{D}\sum_{k=1}^{D}w_{ijk}x_{i}x_{j}x_{k}
MM次多项式,增长速度为DMD^{M}
PRML笔记(二)

eg.3 高维空间的球 半径为111ϵ1-\epsilon的球之间的体积占单位球体积的比例为:1(1ϵ)D1-(1-\epsilon)^{D}。当DD很大时,即使ϵ\epsilon很小,这个比例也会接近于1,即在很高维的空间中,球的体积集中在表面的一个很薄的层上。

eg.4 高维空间的高斯分布 从笛卡尔坐标系转换到极坐标系并对定向变量积分得到密度函数p(r)p(r)DD很大时,密度集中于离原点很远的地方。
PRML笔记(二)
但真实数据被一般限制在较低维度且重要变量是有限的,同时至少局部范围内是有一定光滑性的。

1.5 Decision Theory

input vector x\textbf{x}
corresponding vector t\textbf{t}
{0,1}\{0,1\}分类问题,记t=0t=0时样本属于类别C1\mathcal{C}_{1}t=1t=1时样本属于类别C2\mathcal{C}_{2}

1.5.1 最小化错分率

根据样本的分类将输入空间划分为Rk\mathcal{R}_{k},成为decision region,它们之间的边界称为decision boundaries。错分概率:
p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx\begin{aligned} p(mistake)&=p(\textbf{x} \in \mathcal{R}_{1},\mathcal{C}_{2})+p(\textbf{x} \in \mathcal{R}_{2},\mathcal{C}_{1})\\ &=\int_{\mathcal{R}_{1}}p(\textbf{x},\mathcal{C}_{2})d\textbf{x}+\int_{\mathcal{R}_{2}}p(\textbf{x},\mathcal{C}_{1})d\textbf{x} \end{aligned}
p(x,Ck)=p(Ckx)p(x)p(\textbf{x},\mathcal{C}_{k})=p(\mathcal{C}_{k}|\textbf{x})p(\textbf{x}),使错分概率最小即使后验概率p(Ckx)p(\mathcal{C}_{k}|\textbf{x})最大。

1.5.2 最小化误差期望

不同的类别的错分代价是不同的。

1.5.3 拒绝项

当后验概率小于某一个阈值θ\theta时,不对此样本做出预测。

1.5.4 推断和决策

inference stage 训练模型得到后验概率
decision stage 利用后验概率做出决策
discriminant function 直接将输入xx映射到决策
三种模型:

  • 生成模型,分别学习p(xCk)p(\textbf{x}|\mathcal{C}_{k})p(Ck)p(\mathcal{C}_{k}),利用贝叶斯公式得到p(Ck,x)p(\mathcal{C}_{k},\textbf{x})。这种模型最demanding(计算代价大,训练需要的样本量大),但可以得到x\textbf{x}的概率密度,可利用它来发现概率较低的新数据点。
  • 直接学习条件概率p(Ckx)p(\mathcal{C}_{k}|\textbf{x})
  • 与概率无关,学习一个样本空间上的决策函数f(x)f(\textbf{x})。这种模型将推断阶段和决策阶段放到了同一个学习过程,直接得到决策边界。

非概率模型在使得过程难以实现:reject option(需要后验概率), compensating for class priors(当样本不均衡时,修改训练集同时改变先验), combining models(多类信息采用不同模型训练后得到后验概率再利用概率的运算法则结合)。

1.5.5 回归问题的损失函数

当loss functionL(t,y(x))L(t,y(x))为最小二乘时,期望误差为:
E(L)={y(x)t}2p(x,t)dxdtE(L)=\int \int \{y(x)-t\}^{2}p(x,t)dxdt
y(x)y(x)求微分:
δE(L)δy(x)=2{y(x)t}p(x,t)dt=0\frac{\delta E(L)}{\delta y(x)}=2\int \{y(x)-t\}p(x,t)dt=0
解得y(x)=Et[tx]y(x)=E_{t}[t|x]

E(L)E(L)可以拆分为(下式省略了条件tt):
E(L)={y(x)E[tx]}2p(x)dx+{E[tx]t}2p(x)dxE(L)=\int \{y(x)-E[t|x]\}^{2}p(x)dx+\int \{E[t|x]-t\}^{2}p(x)dx

相关文章: