1 前言
2 问题定义
- 给定数据集{x1,x2,...,xm}和标签{y1,y2,...,ym},训练一个模型y(x,θ),使得输入新的 x,输出对应的预测值。其中 xi∈Rn,标签 yi∈R;
3 建立判别模型
- 建立一个判别模型,使得输入一个数据 x,输出所有可能的 y 值对应的概率,如果 y 值连续,则输出 y 值的概率密度函数。
- 我们使用线性高斯分布(Linear Gaussian)来建立该判别模型:
p(y∣x,θ,β)=N(y∣θTx,β−1)
其中,θTx表示线性模型,也可以是其他形式的线性组合(注意,这里的线性指的是对参数θ线性),β表示精度(方差的倒数);
4 建立似然函数
L(θ,β)=i=1∏mN(yi∣θTxi,β−1)
- 对数似然:
lnL(θ,β)=2Nlnβ−2Nln2π−βED(θ)
其中:ED(θ)=21∑i=1m[yi−θTxi]2
- 求导:
▽lnL(θ,β)=i=1∑m[yi−θTxi]xi
- 令导数等于0,求得:
θML=(XTX)−1XTY
其中,
X=⎝⎛x11...x1m......xn1...xnm⎠⎞m×n
Y=⎝⎛y1...ym⎠⎞m×1
m为样本个数,n为样本特征数;
5 极大似然和最小二乘的关系
- 极大似然估计的计算结果θML=(XTX)−1XTY,就是最小二乘法求解线性回归问题的解,投影矩阵P=(XTX)−1XT,θML就是向量Y向X张成的子空间的投影。
- 此外,极大似然估计还能估计参数 β 的结果,即仅通过最小二乘损失函数学习到的模型,使用时输入一个 x,只能输出一个y(x,θ),但是通过线性高斯建立的判别模型,使用极大似然估计可以学习到两个参数θ,β,使用时输入一个x,会输出一个条件高斯分布 p(y∣x,θ,β),可以得到所有可能估计值y的概率分布。
- 最小二乘:
- 线性高斯:
相关文章: