高斯过程

所谓高斯,即高斯分布
所谓过程,即随机过程

高斯分布

一维高斯

p(x)=N(μ,σ2)p(x)=N(\mu, \sigma^2)

高维高斯

多元高斯分布——高斯网络 xRpx\in \mathbb{R}^p
p(x)=N(μ,Σ),Σp×p,p<infp(x)=N(\mu,\Sigma),\Sigma_{p\times p},p<\inf

无限维高斯分布

即高斯过程,定义在连续域(时间或者空间)上的无限多个高斯随机变量所组成的随机过程
假设有一个连续域 TT,对于任意正整数 nn,有 t1,...,tnTt_1,...,t_n \in T,且满足条件
[ξt1ξtn]N(μt1tn,Σt1tn) \left[ \begin{array}{c}{\xi_{t_{1}}} \\ {\vdots} \\ {\xi_{t_{n}}}\end{array}\right] \sim N(\mu_{t_1-t_n},\Sigma_{t_1-t_n}) {ξt}tT\{\xi_t\}_{t\in T} 就是一个高斯过程。
机器学习——高斯过程
则一个高斯过程可以表示为
GP(m(t),k(s,t))GP(m(t),k(s,t))其中m(t)=E[ξt]m(t)=E[\xi_t]为均值函数,k(s,t)=E[ξsE[ξs]][ξtE[ξt]]k(s,t)=E[\xi_s-E[\xi_s]][\xi_t-E[\xi_t]]为协方差函数

高斯过程回归

贝叶斯线性回归(权重空间视角)

线性回归
使用核函数就可以用于非线性
贝叶斯线性回归加上核方法(非线性转换内积)也就是高斯过程回归{f(x)=ϕT(x)wy=f(x)+ε \left\{\begin{array}{l}{f(x)=\phi^T (x)w} \\ {y=f(x)+\varepsilon}\end{array}\right. 这是从权重空间的角度来看

函数空间视角

f(x)GP(m(x),k(x,x))f(x) \sim GP(m(x),k(x,x'))

  1. f(x) 是函数
  2. f(x)是高斯分布
    与之前的定义对应关系就是
    tξt,{ξt}tTGPt \rightarrow \xi_t,\{\xi_t\}_{t\in T}\sim GP xf(x),{f(x)}xRpGPx \rightarrow f(x),\{f(x)\}_{x\in \mathbb{R}^p}\sim GP

回归问题:
Data:{(xi,yi)}i=1N,y=f(x)+ϵ\{(x_i,y_i)\}_{i=1}^N,y=f(x)+\epsilon
定义 XN×p=(x1,...,xN)T,YN×1=(y1,...,yN)TX_{N\times p}=(x_1,...,x_N)^T,Y_{N\times 1}=(y_1,...,y_N)^T
f(X)N(μ(X),K(X,X))f(X)\sim N(\mu(X),K(X,X))
Y=f(X)+ϵN(μ(X),K(X,X)+σ2I)Y=f(X)+\epsilon \sim N(\mu(X),K(X,X)+\sigma^2I)
需要预测的数据为 XX^*,则 Y=f(X)+ϵY^*=f(X^*)+\epsilon

已知 xN(μ,Σ)x \sim N(\mu,\Sigma)
其中x=(xaxb),μ=(μaμb),Σ=(ΣaaΣabΣbaΣbb)x = \left( \begin{array}{l} {x_a}\\ {x_b} \end{array} \right),\mu = \left( \begin{array}{l} {\mu _a}\\ {\mu _b} \end{array} \right),\Sigma= \left( \begin{array}{ll}{\Sigma_{aa}} & {\Sigma_{ab}} \\ {\Sigma_{ba}} & {\Sigma_{bb}}\end{array}\right) xbxaN(μba,Σba) x_b|x_a \sim N(\mu_{b|a},\Sigma_{b|a})其中
μba=ΣbaΣaa1(xaμa)+μb,Σba=ΣbbΣbaΣaa1Σab \mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b,\Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}

xa=Y,xb=f(X)x_a=Y,x_b=f(X^*),所要求的的条件概率为 p(f(XY,X,X))p(f(X^*|Y,X,X^*))p(xbxa)p(x_b|x_a),带入公式可得μ=K(X,X)(K(X,X)+σ2I)1(Yμ(X))+μ(X)Σ=K(X,X)K(X,X)(K(X,X)+σ2I)1K(X,X) {\mu ^*} = K\left( {{X^*},X} \right){\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}\left( {Y - \mu \left( X \right)} \right) + \mu \left( {{X^*}} \right) \\ \Sigma^*=K(X^*,X^*)-K(X^*,X) {\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}K(X,X^*) 因此p(f(XY,X,X))=N(μ,Σ) p(f(X^*|Y,X,X^*))=N(\mu^*,\Sigma^*) p(YY,X,X)=N(μ,Σ+σ2I) p(Y^*|Y,X,X^*)=N(\mu^*,\Sigma^*+\sigma^2I)

发现了一个易于理解的博客:https://blog.csdn.net/greenapple_shan/article/details/52402051

相关文章: