1 前言

  • 线性回归问题中,我们使用LSE最小二乘损失函数;而在逻辑回归问题中,我们不能使用LSE损失函数,应该使用交叉熵损失函数,而交叉熵损失函数是由极大似然估计推导而来,推导过程见LR推导

  • 本文讲解如何从极大似然估计的角度解决线性回归问题。本文参考自PRML

2 问题定义

  • 给定数据集{x1,x2,...,xm}\{x_1,x_2, ...,x_m\}和标签{y1,y2,...,ym}\{y_1,y_2, ...,y_m\},训练一个模型y(x,θ)y(x,\theta),使得输入新的 xx,输出对应的预测值。其中 xiRnx_i\in R^n,标签 yiRy_i\in R
    极大似然估计解决线性回归问题(频率学派)

3 建立判别模型

  • 建立一个判别模型,使得输入一个数据 xx,输出所有可能的 yy 值对应的概率,如果 yy 值连续,则输出 yy 值的概率密度函数。
  • 我们使用线性高斯分布(Linear Gaussian)来建立该判别模型:
    p(yx,θ,β)=N(yθTx,β1)p(y|x,\theta,\beta)=\mathcal{N}(y|\theta^Tx,\beta^{-1})
    其中,θTx\theta^Tx表示线性模型,也可以是其他形式的线性组合(注意,这里的线性指的是对参数θ\theta线性),β\beta表示精度(方差的倒数);

4 建立似然函数

L(θ,β)=i=1mN(yiθTxi,β1)L(\theta,\beta)=\prod_{i=1}^m\mathcal{N}(y_i|\theta^Tx_i,\beta^{-1})

  • 对数似然:
    lnL(θ,β)=N2lnβN2ln2πβED(θ)lnL(\theta,\beta) = \frac{N}{2}ln\beta-\frac{N}{2}ln2\pi-\beta E_D(\theta)
    其中:ED(θ)=12i=1m[yiθTxi]2E_D(\theta)=\frac{1}{2}\sum_{i=1}^m[y_i-\theta^Tx_i]^2
  • 求导:
    lnL(θ,β)=i=1m[yiθTxi]xi\bigtriangledown lnL(\theta,\beta)=\sum_{i=1}^m[y_i-\theta^Tx_i]x_i
  • 令导数等于0,求得:
    θML=(XTX)1XTY\theta_{ML}=(X^TX)^{-1}X^TY
    其中,
    X=(x11...xn1......x1m...xnm)m×nX= \left( \begin{matrix} x^1_1 & ... & x^1_n\\ ... & &...\\ x^m_1 & ... & x^m_n \end{matrix} \right)_{m\times n}
    Y=(y1...ym)m×1Y= \left( \begin{matrix} y_1\\ ...\\ y_m \end{matrix} \right)_{m\times 1}
    mm为样本个数,nn为样本特征数;

5 极大似然和最小二乘的关系

  • 极大似然估计的计算结果θML=(XTX)1XTY\theta_{ML}=(X^TX)^{-1}X^TY,就是最小二乘法求解线性回归问题的解,投影矩阵P=(XTX)1XTP = (X^TX)^{-1}X^TθML\theta_{ML}就是向量YYXX张成的子空间的投影。
  • 此外,极大似然估计还能估计参数 β\beta 的结果,即仅通过最小二乘损失函数学习到的模型,使用时输入一个 xx,只能输出一个y(x,θ)y(x,\theta),但是通过线性高斯建立的判别模型,使用极大似然估计可以学习到两个参数θ,β\theta,\beta,使用时输入一个xx,会输出一个条件高斯分布 p(yx,θ,β)p(y|x,\theta,\beta),可以得到所有可能估计值y的概率分布。
  • 最小二乘:
    极大似然估计解决线性回归问题(频率学派)
  • 线性高斯:
    极大似然估计解决线性回归问题(频率学派)

相关文章:

  • 2021-07-15
  • 2021-10-05
猜你喜欢
  • 2022-01-20
  • 2022-01-22
  • 2021-06-12
  • 2022-12-23
  • 2022-01-05
  • 2021-10-21
相关资源
相似解决方案