Ch1 introduction绪论
1.1例子:多项式曲线拟合
输入变量x x x ;目标变量t t t ;数据由sin ( 2 π x ) \sin{(2\pi x)} sin ( 2 π x ) 生成,目标变量带有随机的噪声
训练集:x ≡ ( x 1 , … , x N ) \equiv {(x_1,\ldots,x_N)} ≡ ( x 1 , … , x N ) ;t ≡ ( t 1 , … , t N ) \equiv(t_1,\ldots,t_N) ≡ ( t 1 , … , t N ) ;x 的生成:选择x n ( n = 1 , … , N ) x_n(n=1,\ldots,N) x n ( n = 1 , … , N ) 的值,其中x n x_n x n 均匀分布在区间[ 0 , 1 ] [0,1] [ 0 , 1 ] ;t 的生成:sin ( 2 π x ) \sin{(2\pi x)} sin ( 2 π x ) ,再给每个点增加一个小的符合高斯分布的随机噪声
目标:利用训练集预测对应于输入变量的新值x ^ \hat{x} x ^ 的目标变量的值t ^ \hat{t} t ^
使用多项式函数拟合数据
目标函数:y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = ∑ j = 0 M w j x j
y(x,\boldsymbol w)=w_0+w_1 x+w_2 x^2+\ldots+w_M x^M=\sum_{j=0}^M w_j x^j
y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = j = 0 ∑ M w j x j M M M 是多项式的阶数(order),x j x_j x j 表示x x x 的j j j 次幂,系数w 0 , … , w M w_0,\ldots,w_M w 0 , … , w M 记作向量w \boldsymbol w w 。y ( x , w ) y(x,\boldsymbol w) y ( x , w ) 是x x x 的非线性函数,是系数w \boldsymbol w w 的线性函数
误差函数:E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2
E(\boldsymbol w)=\frac{1}{2} \sum_{n=1}^N\left\{y(x_n,\boldsymbol w)-t_n\right\}^2
E ( w ) = 2 1 n = 1 ∑ N { y ( x n , w ) − t n } 2
因子1 2 \frac{1}{2} 2 1 是为了后续运算方便而加入的,误差函数非负,当且仅当函数y ( x , w ) y(x,\boldsymbol w) y ( x , w ) 对所有的训练数据点均作出正确预测时,误差函数为0;
目标:选择使得E ( w ) E(\boldsymbol w) E ( w ) 尽量小的w \boldsymbol w w
误差函数是w \boldsymbol w w 的二次函数,导数是w \boldsymbol w w 的线性函数,则最小值有一个唯一解,记作w ∗ \boldsymbol w^* w ∗
存在问题:选择多项式的阶数M M M ----模型对比(model comparison)or模型选择(model selection)
9阶时得到了对于训练数据的一个完美拟合,E ( w ∗ ) E(\boldsymbol w^*) E ( w ∗ ) =0,拟合的曲线剧烈震荡,表现很差----过拟合(over-fitting)
均方根误差:E R M S = 2 E ( w ∗ ) / N
E_{RMS}=\sqrt{2E(\boldsymbol w^*)/N}
E R M S = 2 E ( w ∗ ) / N
除以N N N 目的是以相同的基础对比不同大小的数据集;平方根确保E R M S E_{RMS} E R M S 与t t t 使用相同的规模和单位
随着M M M 的增大,系数变大。M = 9 M=9 M = 9 ,有着更大的M M M 值的更灵活的多项式被过分地调参使得多项式被调节成了与目标值的随机噪声相符,导致了过拟合现象
对一个给定的模型复杂度,当数据集的规模增加时,过拟合问题变得不严重。即数据集规模越大,能用来拟合数据的模型就越复杂(越灵活)。要求数据点的数量不应该小于模型的可调节参数的数量的若干倍(如5或10)。然而参数的数量对于模型复杂度的大部分合理的度量来说都不是必要的
上图中M = 9 M=9 M = 9
控制过拟合:正则化(regularization)----收缩法(shrinkage),二次正则项称山脊回归(ridge regression),神经网络中叫权值衰减(weight decay)E ~ ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + λ 2 ∥ w ∥ 2
\tilde{E}(\boldsymbol w)=\frac{1}{2} \sum_{n=1}^{N}\left\{y(x_n,\boldsymbol w)-t_n\right\}^2+\frac{\lambda}{2}\left\|\boldsymbol w\right\|^2
E ~ ( w ) = 2 1 n = 1 ∑ N { y ( x n , w ) − t n } 2 + 2 λ ∥ w ∥ 2
其中∥ w ∥ 2 = w T w = w 0 2 + w 1 2 + … + w M 2 \left\|\boldsymbol w\right\|^2=\boldsymbol w^T\boldsymbol w=w_0^2+w_1^2+\ldots+w_M^2 ∥ w ∥ 2 = w T w = w 0 2 + w 1 2 + … + w M 2
通常系数w 0 w_0 w 0 从正则化项中省略,因为包含w 0 w_0 w 0 会使得结果依赖于目标变量原点的选择,也可以包含但必须有自己的正则化系数
下图中M = 9 M=9 M = 9 ,随着λ \lambda λ 的增大,系数变小
1.2概率论
概率论提供了一个合理的框架用来对不确定性进行量化和计算,构成了模式识别的一个中心基础
一个例子:红盒子和蓝盒子,苹果和橘子。红盒子中有2个苹果和6个句子,蓝盒子中有3个苹果和1个橘子
选择的盒子的颜色记为随机变量B B B ,取值r r r 或b b b . p ( r ) = 4 10 p(r)=\frac{4}{10} p ( r ) = 1 0 4 ,p ( b ) = 6 10 p(b)=\frac{6}{10} p ( b ) = 1 0 6
选择的水果的种类记为随机变量F F F ,取值a a a 或o o o
一般情形:随机变量X X X 和Y Y Y ,x i ( i = 1 , … , M ) x_i(i=1,\ldots,M) x i ( i = 1 , … , M ) ;y j ( j = 1 , … , L ) y_j(j=1,\ldots,L) y j ( j = 1 , … , L ) ; N N N 次试验,X = x i X=x_i X = x i 且Y = y j Y=y_j Y = y j 的试验数量记为n i j n_{ij} n i j p ( X = x i , Y = y j ) = n i j N
p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}
p ( X = x i , Y = y j ) = N n i j
p ( X = x i ) = c i N = ∑ j = 1 L p ( X = x i , Y = y j )
p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^{L}{p(X=x_i,Y=y_j)}
p ( X = x i ) = N c i = j = 1 ∑ L p ( X = x i , Y = y j )
p ( Y = y j ∣ X = x i ) = n i j c i
p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}
p ( Y = y j ∣ X = x i ) = c i n i j
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i )
p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)
p ( X = x i , Y = y j ) = N n i j = c i n i j ⋅ N c i = p ( Y = y j ∣ X = x i ) p ( X = x i )
概率论的两条基本规则:
加法准则(sum rule) p ( X ) = ∑ Y p ( X , Y ) p(X)=\sum_Y{p(X,Y)} p ( X ) = ∑ Y p ( X , Y )
乘法准则(product rule) p ( X , Y ) = P ( Y ∣ X ) P ( X ) p(X,Y)=P(Y|X)P(X) p ( X , Y ) = P ( Y ∣ X ) P ( X )
根据这两条规则,以及对称性p ( X , Y ) = p ( Y , X ) p(X,Y)=p(Y,X) p ( X , Y ) = p ( Y , X ) ,得到:
贝叶斯定理p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X )
p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}
p ( Y ∣ X ) = p ( X ) p ( X ∣ Y ) p ( Y )
贝叶斯定理的分母,归一化常数p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y )
p(X)=\sum_Y{p(X|Y)p(Y)}
p ( X ) = Y ∑ p ( X ∣ Y ) p ( Y )
先验概率(prior probability): p ( B ) p(B) p ( B ) 观察到水果种类之前就能得到的概率
后验概率(posterior probability): p ( B ∣ F ) p(B|F) p ( B ∣ F )
1.2.1概率密度(probability density)
如果一个实值变量x x x 的概率落在区间( x , x + δ x ) (x,x+\delta x) ( x , x + δ x ) 的概率由p ( x ) δ x p(x)\delta x p ( x ) δ x 给出( δ x → 0 ) (\delta x\to0 ) ( δ x → 0 ) ,p ( x ) p(x) p ( x ) 是概率密度p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x
p(x\in (a,b))=\int_{a}^{b}p(x)dx
p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x
p ( x ) ≥ 0
p(x)\ge 0
p ( x ) ≥ 0
∫ − ∞ ∞ p ( x ) d x = 1
\int_{-\infty}^{\infty}p(x)dx=1
∫ − ∞ ∞ p ( x ) d x = 1
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣
p_y(y)=p_x(x)\left|\frac{dx}{dy}\right|=p_x(g(y))\left|g^\prime(y)\right|
p y ( y ) = p x ( x ) ∣ ∣ ∣ ∣ d y d x ∣ ∣ ∣ ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣
P ( z ) = ∫ − ∞ z p ( x ) d x
P(z)=\int_{-\infty}^{z}p(x)dx
P ( z ) = ∫ − ∞ z p ( x ) d x
加法和乘法规则:p ( x ) = ∫ p ( x , y ) d y
p(x)=\int p(x,y)dy
p ( x ) = ∫ p ( x , y ) d y
p ( x , y ) = p ( y ∣ x ) p ( x )
p(x,y)=p(y|x)p(x)
p ( x , y ) = p ( y ∣ x ) p ( x )
1.2.2期望和协方差
期望(expectation)
离散变量 E [ f ] = ∑ x p ( x ) f ( x ) \mathbb E[f]= \sum_{x} p(x)f(x) E [ f ] = ∑ x p ( x ) f ( x )
连续变量 E [ f ] = ∫ p ( x ) f ( x ) d x \mathbb E[f]=\int p(x)f(x)dx E [ f ] = ∫ p ( x ) f ( x ) d x
给定有限数量的N N N 个点 E [ f ] ≃ 1 N ∑ n = 1 N f ( x n ) \mathbb E[f]\simeq \frac{1}{N} \sum_{n=1}^N f(x_n) E [ f ] ≃ N 1 ∑ n = 1 N f ( x n )
多变量 E x [ f ( x , y ) ∣ y ] = ∑ x p ( x ∣ y ) f ( x ) \mathbb E_x[f(x,y)|y]=\sum_x p(x|y)f(x) E x [ f ( x , y ) ∣ y ] = ∑ x p ( x ∣ y ) f ( x )
方差(variance):
v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2 var[f]=\mathbb E[(f(x)-\mathbb E[f(x)])^2]=\mathbb E[f(x)^2]-\mathbb E[f(x)]^2 v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2
v a r [ x ] = E [ x 2 ] − E [ x ] 2 var[x]=\mathbb E[x^2]-\mathbb E[x]^2 v a r [ x ] = E [ x 2 ] − E [ x ] 2
协方差(covariance)
c o v [ x , y ] = E x , y [ { x − E [ x ] } { y − E [ y ] } ] = E x , y [ x y ] − E [ x ] E [ y ] cov[x,y]=\mathbb E_{x,y}[\left\{x-\mathbb E[x]\right\}\left\{y-\mathbb E[y]\right\}]=\mathbb E_{x,y}[xy]-\mathbb E[x]E[y] c o v [ x , y ] = E x , y [ { x − E [ x ] } { y − E [ y ] } ] = E x , y [ x y ] − E [ x ] E [ y ]
向量c o v [ x , y ] = E x , y [ { x − E [ x ] } { y T − E [ y T ] } ] = E x , y [ x y T ] − E [ x ] E [ y T ] cov[\boldsymbol x,\boldsymbol y]=\mathbb E_{x,y}[\left\{x-\mathbb E[x]\right\}\left\{\boldsymbol y^T-\mathbb E[\boldsymbol y^T]\right\}]=\mathbb E_{x,y}[\boldsymbol x\boldsymbol y^T]-\mathbb E[\boldsymbol x]E[\boldsymbol y^T] c o v [ x , y ] = E x , y [ { x − E [ x ] } { y T − E [ y T ] } ] = E x , y [ x y T ] − E [ x ] E [ y T ]
1.2.3贝叶斯概率
使用概率论来描述模型参数(例如w w w )的不确定性,或者模型本身的选择
贝叶斯定理:
在观察到数据之前,有一些关于参数w w w 的假设,以先验概率p ( w ) p(w) p ( w ) 的形式给出;
观察数据D = { t 1 , … , t N } \mathcal D=\left\{t_1,\ldots,t_N\right\} D = { t 1 , … , t N } 的效果通过条件概率p ( D ∣ w ) p(\mathcal D|w) p ( D ∣ w ) 表达p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D )
p(\boldsymbol w|\mathcal D)=\frac{p(\mathcal D|\boldsymbol w) p(\boldsymbol w)}{p(\mathcal D)}
p ( w ∣ D ) = p ( D ) p ( D ∣ w ) p ( w )
其中p ( D ∣ w ) p(\mathcal D|w) p ( D ∣ w ) 是似然函数,由观测数据集D \mathcal D D 来估计,看成参数向量w w w 的函数。表达了在不同参数向量w w w 下,观测数据出现的可能性的大小。它不是w w w 的概率分布,关于w w w 的积分并不(一定)等于1.
贝叶斯定理的自然语言表述p o s t e r i o r ∝ l i k e h o o d × p r i o r
posterior \propto likehood\times prior
p o s t e r i o r ∝ l i k e h o o d × p r i o r
贝叶斯公式的分母是一个归一化常数,积分为1.对公式两侧关于w w w 进行积分,得到贝叶斯定理的分母:p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w
p(\mathcal D)=\int p(\mathcal D|\boldsymbol w)p(\boldsymbol w)d\boldsymbol w
p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w
似然函数(likehood function):p ( D ∣ w ) p(\mathcal D|\boldsymbol w) p ( D ∣ w )
频率学家的观点:w w w 被认为是一个固定的参数,它的值由某种形式的“估计”确定,这个估计的误差通过考察可能的数据集D \mathcal D D 的概率分布来得到
贝叶斯的观点:只有一个数据集D \mathcal D D (即实际观测到的数据集)参数的不确定性通过w w w 的概率分布来表达用极大似然估计,其中w w w 的值是使似然函数p ( D ∣ w ) p(\mathcal D|w) p ( D ∣ w ) 达到最大值的w w w 值,即选择使观察到的数据集出现概率最大的w w w 的值
批评:先验概率的选择通常是为了计算的方便而不是为了反映出任何先验的知识;对于先验选择的依赖性
困难:计算复杂
极大似然估计,其中w \boldsymbol w w 的值是使似然函数p ( D ∣ w ) p(\mathcal D|\boldsymbol w) p ( D ∣ w ) 达到最大值的w \boldsymbol w w 值,即选择使观察到的数据集出现概率最大的w \boldsymbol w w 的值
误差函数:似然函数的负对数,单调递减。最大化似然函数等价于最小化误差函数
1.2.4高斯分布(gaussian/normal)
一元实值变量x x x :N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 2 exp { − 1 2 σ 2 ( x − μ ) 2 }
\mathcal N(x|\mu,\sigma ^2)=\frac{1}{(2\pi \sigma ^2)^{\frac{1}{2}}}\exp \left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}
N ( x ∣ μ , σ 2 ) = ( 2 π σ 2 ) 2 1 1 exp { − 2 σ 2 1 ( x − μ ) 2 } μ \mu μ 均值,σ 2 \sigma ^2 σ 2 方差,β = 1 σ 2 \beta =\frac{1}{\sigma ^2} β = σ 2 1 精度(precision)
D D D 维x \boldsymbol x x :N ( x ∣ μ , ∑ ) = 1 ( 2 π ) D 2 1 ∣ ∑ ∣ 1 2 exp { − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) }
\mathcal N(\boldsymbol x|\boldsymbol \mu, \sum)=\frac{1}{(2\pi)^{\frac{D}{2}} } \frac{1}{\left|\sum\right|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(\boldsymbol x-\boldsymbol \mu)^T \begin{matrix}\sum^{-1}(\boldsymbol x-\boldsymbol \mu)\end{matrix} \right\}
N ( x ∣ μ , ∑ ) = ( 2 π ) 2 D 1 ∣ ∑ ∣ 2 1 1 exp { − 2 1 ( x − μ ) T ∑ − 1 ( x − μ ) }
其中D D D 维向量μ \mu μ 是均值,D × D D\times D D × D 的矩阵∑ \sum ∑ 是协方差,∣ ∑ ∣ |\sum| ∣ ∑ ∣ 是行列式
最大似然法:
观测数据集x = ( x 1 , … , x N ) T \boldsymbol {\mathrm x}=(x_1,\ldots,x_N)^T x = ( x 1 , … , x N ) T ,表示标量变量x x x 的N N N 次观测,区别向量x \boldsymbol x x 变量( x 1 , … , x d ) T (x_1,\ldots,x_d)^T ( x 1 , … , x d ) T
独立同分布(independent and identically distributed):独立地从相同的数据点中抽取的数据点,缩写i.i.d
数据集x \boldsymbol {\mathrm x} x 的概率(即高斯分布的似然函数)为p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 )
p(\boldsymbol {\mathrm x}|\mu,\sigma ^2)=\prod_{n=1}^N \mathcal N(x_n|\mu,\sigma ^2)
p ( x ∣ μ , σ 2 ) = n = 1 ∏ N N ( x n ∣ μ , σ 2 )
对数似然函数为ln p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 ln σ 2 − N 2 ln ( 2 π )
\ln p(\boldsymbol {\mathrm x}|\mu,\sigma ^2)=-\frac{1}{2\sigma ^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln \sigma^2-\frac{N}{2}\ln(2\pi)
ln p ( x ∣ μ , σ 2 ) = − 2 σ 2 1 n = 1 ∑ N ( x n − μ ) 2 − 2 N ln σ 2 − 2 N ln ( 2 π ) μ \mu μ 的最大似然解为μ M L = 1 N ∑ n = 1 N x n = x ˉ
\mu_{ML}=\frac{1}{N}\sum _{n=1}^Nx_n=\bar x
μ M L = N 1 n = 1 ∑ N x n = x ˉ
即为样本均值。
σ 2 \sigma ^2 σ 2 的最大似然解为σ M L 2 = 1 N ∑ n = 1 N ( x n − μ M L ) 2 = M 2
\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2=M_2
σ M L 2 = N 1 n = 1 ∑ N ( x n − μ M L ) 2 = M 2
Z这是关于样本均值μ M L \mu_{ML} μ M L 的样本方差,也是二阶样本中心矩M 2 M_2 M 2 。E [ μ M L ] = μ
\mathbb E[\mu_{ML}]=\mu
E [ μ M L ] = μ
E [ σ M L 2 ] = ( N − 1 N ) σ 2
\mathbb E[\sigma_{ML}^2]=(\frac{N-1}{N})\sigma^2
E [ σ M L 2 ] = ( N N − 1 ) σ 2
可以看出最大似然估计的均值正确,但是最大似然求出的方差估计不是方差的无偏估计,低估了方差。这是一种叫做偏移(bias)的现象,与多项式曲线拟合问题中遇到的过拟合问题相关。在实际应用中,只要N N N 不太小,那么偏移的现象就不是个大问题。但是我们更多地关注带有很多参数的复杂模型,它们的最大似然的偏移问题会更加严重。实际上,最大似然的偏移问题是我们在多项式曲线拟合问题中遇到的过拟合问题的核心。如下图:
因此将M 2 M_2 M 2 的分母N N N 修正为N − 1 N-1 N − 1 获得样本方差,此时才是对方差参数的估计是无偏的。如下:σ ~ 2 = N − 1 N σ M L 2 = 1 N − 1 ∑ n = 1 N ( x n − μ M L ) 2 = S 2
\tilde \sigma^2=\frac{N-1}{N}\sigma_{ML}^2=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu_{ML})^2=S_2
σ ~ 2 = N N − 1 σ M L 2 = N − 1 1 n = 1 ∑ N ( x n − μ M L ) 2 = S 2
上式E [ σ M L 2 ] = ( N − 1 N ) σ 2 \mathbb E[\sigma_{ML}^2]=(\frac{N-1}{N})\sigma^2 E [ σ M L 2 ] = ( N N − 1 ) σ 2 的推导如下:∑ n = 1 N ( x n − μ M L ) 2 = ∑ n = 1 N [ ( x n − μ ) − ( x ˉ − μ ) ] 2
\sum_{n=1}^N(x_n-\mu_{ML})^2=\sum_{n=1}^N[(x_n-\mu)-(\bar x-\mu)]^2
n = 1 ∑ N ( x n − μ M L ) 2 = n = 1 ∑ N [ ( x n − μ ) − ( x ˉ − μ ) ] 2
= ∑ n = 1 N ( x n − μ ) 2 − 2 ( x ˉ − μ ) ∑ n = 1 N ( x n − μ ) + n ( x ˉ − μ ) 2
=\sum_{n=1}^N(x_n-\mu)^2-2(\bar x-\mu)\sum_{n=1}^N(x_n-\mu)+n(\bar x-\mu)^2
= n = 1 ∑ N ( x n − μ ) 2 − 2 ( x ˉ − μ ) n = 1 ∑ N ( x n − μ ) + n ( x ˉ − μ ) 2
= ∑ n = 1 N ( x n − μ ) 2 − 2 ( x ˉ − μ ) n ( x ˉ − μ ) + n ( x ˉ − μ ) 2 = ∑ n = 1 N ( x n − μ ) 2 − n ( x ˉ − μ ) 2
=\sum_{n=1}^N(x_n-\mu)^2-2(\bar x-\mu)n(\bar x-\mu)+n(\bar x-\mu)^2=\sum_{n=1}^N(x_n-\mu)^2-n(\bar x-\mu)^2
= n = 1 ∑ N ( x n − μ ) 2 − 2 ( x ˉ − μ ) n ( x ˉ − μ ) + n ( x ˉ − μ ) 2 = n = 1 ∑ N ( x n − μ ) 2 − n ( x ˉ − μ ) 2
即∑ n = 1 N ( x n − μ M L ) 2 = ∑ n = 1 N ( x n − μ ) 2 − n ( x ˉ − μ ) 2
\sum_{n=1}^N(x_n-\mu_{ML})^2=\sum_{n=1}^N(x_n-\mu)^2-n(\bar x-\mu)^2
n = 1 ∑ N ( x n − μ M L ) 2 = n = 1 ∑ N ( x n − μ ) 2 − n ( x ˉ − μ ) 2
而E [ ( x n − μ ) 2 ] = v a r [ x i ] = σ 2
\mathbb E[(x_n-\mu)^2]=var[x_i]=\sigma ^2
E [ ( x n − μ ) 2 ] = v a r [ x i ] = σ 2
E [ ( x ˉ − μ ) 2 ] = v a r [ x ˉ ] = v a r [ 1 N ∑ n = 1 N x n ] = 1 N ∑ n = 1 N v a r [ x n ] = σ 2 N
\mathbb E[(\bar x-\mu)^2]=var[\bar x]=var[\frac{1}{N}\sum _{n=1}^Nx_n]=\frac{1}{N}\sum _{n=1}^Nvar[x_n]=\frac{\sigma^2}{N}
E [ ( x ˉ − μ ) 2 ] = v a r [ x ˉ ] = v a r [ N 1 n = 1 ∑ N x n ] = N 1 n = 1 ∑ N v a r [ x n ] = N σ 2
所以E [ σ M L 2 ] = E [ 1 N ∑ n = 1 N ( x n − μ M L ) 2 ] = 1 N E [ ∑ n = 1 N ( x n − μ M L ) 2 ]
\mathbb E[\sigma_{ML}^2]=\mathbb E[\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2]=\frac{1}{N}\mathbb E[\sum_{n=1}^N(x_n-\mu_{ML})^2]
E [ σ M L 2 ] = E [ N 1 n = 1 ∑ N ( x n − μ M L ) 2 ] = N 1 E [ n = 1 ∑ N ( x n − μ M L ) 2 ]
= 1 N E [ ∑ n = 1 N ( x n − x ˉ ) 2 ] = 1 N ( ∑ n = 1 N σ 2 − N σ 2 N ) = ( N − 1 N ) σ 2
=\frac{1}{N}\mathbb E[\sum_{n=1}^N(x_n-\bar x)^2]=\frac{1}{N}(\sum_{n=1}^N\sigma^2-N\frac{\sigma^2}{N})=(\frac{N-1}{N})\sigma^2
= N 1 E [ n = 1 ∑ N ( x n − x ˉ ) 2 ] = N 1 ( n = 1 ∑ N σ 2 − N N σ 2 ) = ( N N − 1 ) σ 2
1.2.5重新考虑曲线拟合问题
曲线拟合的目标:N N N 个输入x = ( x 1 , … , x N ) = {(x_1,\ldots,x_N)} = ( x 1 , … , x N ) 和对应的目标值t = ( t 1 , … , t N ) =(t_1,\ldots,t_N) = ( t 1 , … , t N ) ,在给出输入变量x x x 的新值的情况下,对目标变量t t t 进行预测。
用概率分布来表达关于目标变量的值的不确定性。做法如下:
给定x x x 的值,对应的t t t 值服从高斯分布,分布的均值为y ( x , w ) y(x,\boldsymbol w) y ( x , w ) 。因此有p ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) )
p(t|x,\boldsymbol w,\beta)=\mathcal N(t|y(x,\boldsymbol w),\beta^{-1}))
p ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) )
用训练数据{x ,t }通过最大似然法决定未知参数w \boldsymbol w w 和β \beta β 的值
似然函数:p ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) )
p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)=\prod_{n=1}^N\mathcal N(t_n|y(x_n,\boldsymbol w),\beta^{-1}))
p ( t ∣ x , w , β ) = n = 1 ∏ N N ( t n ∣ y ( x n , w ) , β − 1 ) )
对数似然函数:ln p ( t ∣ x , w , β ) = − β 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + N 2 ln β − N 2 ln ( 2 π )
\ln p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)=-\frac{\beta}{2}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w)-t_n\right\}^2+\frac{N}{2}\ln \beta-\frac{N}{2}\ln (2\pi)
ln p ( t ∣ x , w , β ) = − 2 β n = 1 ∑ N { y ( x n , w ) − t n } 2 + 2 N ln β − 2 N ln ( 2 π )
考虑多项式系数的最大似然解(w M L \boldsymbol w_{ML} w M L ):
由上式中与w \boldsymbol w w 有关的式子确定。省略最后两项,且使用一个正的常数系数来缩放对数似然函数并不会改变关于w \boldsymbol w w 的最大值的位置,因此用1 2 \frac{1}{2} 2 1 来代替系数β 2 \frac{\beta}{2} 2 β 。最后等价地最小化负对数似然函数。于是最大化似然函数等价于最小化平方和误差函数。因此,在高斯噪声的假设下,平方误差函数是最大化似然函数的一个自然结果。
考虑精度β M L \beta_{ML} β M L :1 β M L = 1 N ∑ n = 1 N { y ( x n , w M L ) − t n } 2
\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w_{ML})-t_n\right\}^2
β M L 1 = N 1 n = 1 ∑ N { y ( x n , w M L ) − t n } 2
对新的x x x 的值进行预测
现在有一个概率模型,预测可以通过给出t t t 的概率分布的预测分布来表示
预测分布:p ( t ∣ x , w M L , β M L ) = N ( t ∣ y ( x , w M L ) , β M L − 1 ) )
p(t|x,\boldsymbol w_{ML},\beta_{ML})=\mathcal N(t|y(x,\boldsymbol w_{ML}),\beta_{ML}^{-1}))
p ( t ∣ x , w M L , β M L ) = N ( t ∣ y ( x , w M L ) , β M L − 1 ) )
引入在多项式系数w \boldsymbol w w 上的先验分布:p ( w ∣ α ) = N ( w ∣ y ( 0 , α − 1 I ) = ( α 2 π ) M + 1 2 exp { − α 2 w T w }
p(\boldsymbol w|\alpha)=\mathcal N(\boldsymbol w|y(\boldsymbol 0,\alpha ^{-1}\boldsymbol I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}\exp\left\{-\frac{\alpha}{2}\boldsymbol w^T\boldsymbol w\right\}
p ( w ∣ α ) = N ( w ∣ y ( 0 , α − 1 I ) = ( 2 π α ) 2 M + 1 exp { − 2 α w T w }
其中α \alpha α 是预测分布的精度,是超参数(控制模型参数分布的参数)。M + 1 M+1 M + 1 是对于M M M 阶多项式的向量w \boldsymbol w w 的元素的总数
使用贝叶斯定理:p ( w ∣ x , t , α , β ) ∝ p ( t ∣ x , w , β ) p ( w ∣ α )
p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t},\alpha,\beta)\propto p(\boldsymbol {\mathrm t}|\boldsymbol {\mathrm x},\boldsymbol w,\beta)p(\boldsymbol w|\alpha)
p ( w ∣ x , t , α , β ) ∝ p ( t ∣ x , w , β ) p ( w ∣ α )
最大化后验概率确定w \boldsymbol w w ----最大后验(maximum posterior),简称MAP:
即最小化下式:β 2 ∑ n = 1 N { y ( x n , w M L ) − t n } 2 + α 2 w T w
\frac{\beta}{2}\sum_{n=1}^N\left\{y(x_n,\boldsymbol w_{ML})-t_n\right\}^2+\frac{\alpha}{2}\boldsymbol w^T\boldsymbol w
2 β n = 1 ∑ N { y ( x n , w M L ) − t n } 2 + 2 α w T w
因此最大化后验概率等价于最小化正则化的平方和误差函数,正则化参数为λ = α β \lambda=\frac{\alpha}{\beta} λ = β α
1.2.6贝叶斯曲线拟合
1.2.5中的问题:虽然有先验分布p ( w ∣ α ) p(\boldsymbol w|\alpha) p ( w ∣ α ) ,但仍在进行w w w 的点估计。
纯粹的贝叶斯方法:自始至终地应用概率的加法规则和乘法规则。这需要对所有w \boldsymbol w w 值进行积分。这种积分对模式识别来说是贝叶斯方法的核心。
曲线拟合问题中,训练数据x 和t ,新的测试点x x x ,预测t t t 的值。即估计预测分布p ( t ∣ x , x , t ) p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t}) p ( t ∣ x , x , t ) 。这里要假设参数α \alpha α 和β \beta β 是固定的,事先知道的(??)
预测概率:p ( t ∣ x , x , t ) = ∫ p ( t ∣ x , w ) p ( w ∣ x , t ) d w
p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})=\int p(t|x,\boldsymbol w)p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})d\boldsymbol w
p ( t ∣ x , x , t ) = ∫ p ( t ∣ x , w ) p ( w ∣ x , t ) d w
其中p ( t ∣ x , w ) p(t|x,\boldsymbol w) p ( t ∣ x , w ) 忽略了对α \alpha α 和β \beta β 的依赖。p ( w ∣ x , t ) p(\boldsymbol w|\boldsymbol {\mathrm x},\boldsymbol {\mathrm t}) p ( w ∣ x , t ) 是参数的后验分布,是一个高斯分布,可以解析地求出p ( t ∣ x , x , t ) = N ( t ∣ m ( x ) , s 2 ( x ) )
p(t|x,\boldsymbol {\mathrm x},\boldsymbol {\mathrm t})=\mathcal N(t|m(x),s^2(x))
p ( t ∣ x , x , t ) = N ( t ∣ m ( x ) , s 2 ( x ) )
均值和方差为m ( x ) = β ϕ ( x ) T S ∑ n = 1 N ϕ ( x n ) t n
m(x)=\beta \phi(x)^T\boldsymbol S\sum_{n=1}^N\phi (x_n)t_n
m ( x ) = β ϕ ( x ) T S n = 1 ∑ N ϕ ( x n ) t n
s 2 ( x ) = β − 1 + ϕ ( x ) T S ϕ ( x )
s^2(x)=\beta^{-1}+\phi(x)^T\boldsymbol S\phi(x)
s 2 ( x ) = β − 1 + ϕ ( x ) T S ϕ ( x )
可以看出预测分布的均值和方差依赖于x x x 。方差的第一项表示预测值t t t 的不确定性,这种不确定性由目标变量上的噪声造成。在最大似然的预测分布中,这种不确定性通过β M L − 1 \beta_{ML}^{-1} β M L − 1 表达
其中矩阵S \boldsymbol S S 由下式给出。方差的第二项对参数w \boldsymbol w w 的不确定性有影响。S − 1 = α I + β ∑ n = 1 N ϕ ( x n ) ϕ ( x n ) T
\boldsymbol S^{-1}=\alpha \boldsymbol I+\beta\sum_{n=1}^N\phi(x_n)\phi(x_n)^T
S − 1 = α I + β n = 1 ∑ N ϕ ( x n ) ϕ ( x n ) T
其中向量ϕ ( x ) \phi(x) ϕ ( x ) 被定义为ϕ i ( x ) = x i ( i = 0 , … , M ) \phi_i(x)=x^i(i=0,\ldots,M) ϕ i ( x ) = x i ( i = 0 , … , M )
1.3模型选择
拟合多项式曲线例子
多项式的阶数控制了模型的自由参数的个数,因此控制了模型的复杂度
正则化系数λ \lambda λ 也控制了模型复杂度
更复杂的模型如混合分布或神经网络
可能存在多个控制模型复杂度的参数
模型选择:
缺点:需要进行训练的次数随着S S S 而增加,耗时;对于一个单一的模型,可能有多个 复杂度参数(如可能有若干个正则化参数),最坏的情况下探索这些参数的组合所需的训练次数可能是参数个数的指数函数。
信息准则(information criteria)
增加一个惩罚项来补偿过于复杂的模型造成的过拟合
如:赤池信息准则(akaike information criteria)or AICln ( D ∣ w M L ) − M
\ln(\mathcal D|w_{ML})-M
ln ( D ∣ w M L ) − M
选择使这个量最大的模型。p ( D ∣ w M L ) p(\mathcal D|w_{ML}) p ( D ∣ w M L ) 是最合适的对数似然函数,M M M 是模型中可调节参数的数量。
缺点:没有考虑模型参数的不确定性,在实际应用中倾向于选择过于简单的模型
1.4维数灾难
考虑一个人工合成的数据集,每个数据点由一个12维的输入向量组成,给出数据集里的100个点的两个分量x 6 x_6 x 6 和x 7 x_7 x 7 ,预测“叉点”的类别
一种简单的方法:
把输入空间划分成小的单元格,首先判断测试点属于哪个单元格,寻找训练集中落在同一个单元格中的训练数据点。测试点的类别就是测试点所在的单元格中数量最多的训练数据点的类别。
问题:
把空间的区域分割成一个个的单元格,单元格的数量会随着空间的维数以指数的形式增大。为了保证单元格不为空,需要指数量级的训练数据。
考虑多项式拟合的问题。假设有D D D 个输入变量,三阶多项式如下:y ( x , w ) = w o + ∑ i = 1 D w i x i + ∑ i = 1 D ∑ j = 1 D w i j x i x j + ∑ i = 1 D ∑ j = 1 D ∑ k = 1 D w i j k x i x j x k
y(\boldsymbol x,\boldsymbol w)=w_o+\sum_{i=1}^Dw_ix_i+\sum_{i=1}^D \sum_{j=1}^Dw_{ij}x_ix_j+\sum_{i=1}^D\sum_{j=1}^D\sum_{k=1}^Dw_{ijk}x_ix_jx_k
y ( x , w ) = w o + i = 1 ∑ D w i x i + i = 1 ∑ D j = 1 ∑ D w i j x i x j + i = 1 ∑ D j = 1 ∑ D k = 1 ∑ D w i j k x i x j x k
随着D D D 的增加,独立的系数的数量的增长速度正比于D 3 D^3 D 3 。对于一个M M M 饥阶多项式,系数数量增长速度类似于D M D^M D M
考虑D D D 维空间的一个半径r = 1 r=1 r = 1 的球体,位于半径r = 1 − ϵ r=1-\epsilon r = 1 − ϵ 和半径r = 1 r=1 r = 1 之间的部分占球的总体积的百分比V D ( r ) = K D r D
V_D(r)=K_Dr^D
V D ( r ) = K D r D
其中常数K D K_D K D 值依赖于D D D ,体积比为V D ( 1 ) − V D ( 1 − ϵ ) V D ( 1 ) = 1 − ( 1 − ϵ ) D
\frac{V_D(1)-V_D(1-\epsilon)}{V_D(1)}=1-(1-\epsilon)^D
V D ( 1 ) V D ( 1 ) − V D ( 1 − ϵ ) = 1 − ( 1 − ϵ ) D
对于较大的D D D ,体积比趋近于1。因此,在高维空间中,一个球体的大部分体积都聚集在表面附近的薄球壳上。
考虑高维空间的高斯分布。从笛卡尔坐标系变化到极坐标系,把方向变量积分出来即概率密度的表达式p ( r ) p(r) p ( r ) ,它是关于距离原点的半径r r r 的函数。p ( r ) δ r p(r)\delta r p ( r ) δ r 是位于半径r r r 处厚度为δ r \delta r δ r 的薄球壳内部的概率质量。
可以看到,对于大的D D D 值,高斯分布的概率质量集中在薄球壳处。
1.5决策论
不确定的情况下做出最优的决策。具体地,如前面所述的输入向量x x x 和对应的目标值向量t t t ,决策论的主题就是对t t t 的值做出具体的预测,根据对t t t 的可能去值得理解,采取一个具体的动作。
考虑一个医疗诊断问题,给病人拍了X光片,诊断是否得了癌症
输入向量x \boldsymbol x x 是X光片的像素的灰度值集合,输出变量t \boldsymbol t t 表示患有癌症(类C 1 C_1 C 1 )或不患癌症(类C 2 C_2 C 2 )p ( C k ∣ x ) = p ( x ∣ C k ) p ( C k ) p ( x )
p(\mathcal C_k|\boldsymbol x)=\frac{p(\boldsymbol x|\mathcal C_k)p(\mathcal C_k)}{p(\boldsymbol x)}
p ( C k ∣ x ) = p ( x ) p ( x ∣ C k ) p ( C k )
目标:最小化把x \boldsymbol x x 分到错误类别中的可能性
相关概念:
决策区域(decision region):把输入空间切分成不同的区域R k \mathcal R_k R k ,每个类别都有一个决策区域,区域R k \mathcal R_k R k 中的所有点都被分到C k \mathcal C_k C k 类。注意,每一个决策区域未必是连续的,可以由若干个分离的区域组成
决策边界(decision boundary)或决策面(desicion surface):决策区域的边界
1.5.1最小化错误分类率
错误分类的概率:p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , c 2 ) d x + ∫ R 2 p ( x , c 1 ) d x
p(\mathrm{mistake})=p(\boldsymbol x\in \mathcal R_1,\mathcal C_2)+p(\boldsymbol x \in \mathcal R_2,\mathcal C_1)=\int_{\mathcal R_1} {p(\boldsymbol x,\mathcal c_2)d \boldsymbol x}+\int_{\mathcal R_2}{p(\boldsymbol x,\mathcal c_1)d \boldsymbol x}
p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , c 2 ) d x + ∫ R 2 p ( x , c 1 ) d x
最小化p ( m i s t a k e ) p(\mathrm{mistake}) p ( m i s t a k e ) , 应该让被积函数尽量小。因此,给定的x \boldsymbol x x 值,若p ( x , C 1 ) > p ( x , C 2 ) p(\boldsymbol x,\mathcal C_1)>p(\boldsymbol x,\mathcal C_2) p ( x , C 1 ) > p ( x , C 2 ) ,则把x \boldsymbol x x 分到类别C 1 \mathcal C_1 C 1 中p ( x , C k ) = p ( C k ∣ x ) p ( x )
p(\boldsymbol x,\mathcal C_k)=p(\mathcal C_k|\boldsymbol x)p(\boldsymbol x)
p ( x , C k ) = p ( C k ∣ x ) p ( x )
两项的p ( x ) p(\boldsymbol x) p ( x ) 相同,因此,若把每个x \boldsymbol x x 分配到后验概率p ( C k ∣ x ) p(\mathcal C_k|\boldsymbol x) p ( C k ∣ x ) 最大的类别中,分类错误的概率就最小
最大化正确率 :p ( c o r r e c t ) = ∑ k = 1 K p ( x ∈ R k , C k ) = ∑ k = 1 K p ( x , C k ) d x
p(\mathrm {correct})=\sum_{k=1}^{K}p(\boldsymbol x \in \mathcal R_k,\mathcal C_k)=\sum_{k=1}^Kp(\boldsymbol x,\mathcal C_k)d\boldsymbol x
p ( c o r r e c t ) = k = 1 ∑ K p ( x ∈ R k , C k ) = k = 1 ∑ K p ( x , C k ) d x
当区域R k \mathcal R_k R k 的选择使得每个x \boldsymbol x x 都被分到使p ( x , C k ) p(\boldsymbol x,\mathcal C_k) p ( x , C k ) 最大的类别中时,上式取得最大值p ( x , C k ) = p ( C k ∣ x ) p ( x )
p(\boldsymbol x,\mathcal C_k)=p(\mathcal C_k|\boldsymbol x)p(\boldsymbol x)
p ( x , C k ) = p ( C k ∣ x ) p ( x )
所有项的p ( x ) p(\boldsymbol x) p ( x ) 相同,每个x \boldsymbol x x 都应该分配到后验概率p ( C k ∣ x ) p(\mathcal C_k|\boldsymbol x) p ( C k ∣ x ) 最大的类别中
1.5.2最小化期望损失
很多应用下,目标不仅仅是单纯地最小化错误分类的数量。如医疗诊断的问题,有以下两种错误及其结果:
错误1:没有患癌症的病人错误地诊断为患病 ;结果:可能给病人带来一些压力,且病人可能需要进一步确诊
错误2:给患癌症的病人诊断为健康 ; 结果:可能会因为缺少治疗而使病人过早死亡
这两种错误的结果是不同的。第二种错误更致命,甚至由于少犯第二种错误会导致第一种错误增加也没关系。
损失函数(loss function):也叫代价函数(cost function)。是对于所有可能的决策或者动作可能产生的损失的一种整体的度量。有学者考虑效用函数(utility function),最大化效用函数
目标:最小化整体的损失
对于新的x \boldsymbol x x 的值,真实的类别是C k \mathcal C_k C k ,把x \boldsymbol x x 分类为C j \mathcal C_j C j (其中j j j 可能与k k k 相等,也可能不相等),造成的损失记为L k j L_{kj} L k j (损失矩阵的第k k k ,j j j 个元素)
最小化损失函数:
损失函数依赖于真实的类别,是未知的。对于一个给定的输入向量x \boldsymbol x x ,联合概率分布p ( x , C k ) p(\boldsymbol x,\mathcal C_k) p ( x , C k ) 表示对于真是类别的不确定性。因此,可以转化为最小化平均损失。
平均损失:E [ L ] = ∑ k ∑ j ∫ R j L k j p ( x , C k ) d x
\mathbb E[L]=\sum_k \sum_j \int_{\mathcal R_j} L_{kj}p(\boldsymbol x,\mathcal C_k)d\boldsymbol x
E [ L ] = k ∑ j ∑ ∫ R j L k j p ( x , C k ) d x
目标是选择区域R j \mathcal R_j R j ,最小化期望损失。表明对于每个x \boldsymbol x x ,最小化∑ k L k j p ( x , C k ) \sum_kL_{kj}p(\boldsymbol x,\mathcal C_k) ∑ k L k j p ( x , C k ) .消掉共同因子p ( x ) p(\boldsymbol x) p ( x ) ,最小化期望损失的决策规则是对于每个新的x \boldsymbol x x ,把它分到能使下式取得最小值的第j j j 类:∑ k L k j p ( C k ∣ x )
\sum_k L_{kj}p(\mathcal C_k|\boldsymbol x)
k ∑ L k j p ( C k ∣ x )
关键是找后验概率p ( C k ∣ x ) p(\mathcal C_k|\boldsymbol x) p ( C k ∣ x )
1.5.3拒绝选项(reject option)
在发生分类错误的输入空间中,后验概率p ( C k ∣ x ) p(\mathcal C_k|\boldsymbol x) p ( C k ∣ x ) 通常远小于1.等价地,不同类别的联合分布p ( x , C k ) p(\boldsymbol x,\mathcal C_k) p ( x , C k ) 有着可比的值。这些区域中,类别的归属相对不确定。这时避免做出决策是更合适的。
如医疗例子中,合适的做法是:使用自动化的系统来对那些几乎没有疑问的X光片进行分类,把不容易分类的X光片留给人类的专家。
合适的方式:
引入阈值θ \theta θ ;
拒绝后验概率p ( C k ∣ x ) p(\mathcal C_k|\boldsymbol x) p ( C k ∣ x ) 的最大值小于等于θ \theta θ 的那些输入x \boldsymbol x x
θ = 1 \theta =1 θ = 1 ,所有样本都被拒绝;θ < 1 K \theta <\frac{1}{K} θ < K 1 ,没有样本被拒绝(有K K K 个类别)
θ \theta θ 过大,弃真;$\theta $过小,纳伪
1.5.4 推断和决策
1.5.5回归问题的损失函数
推导一:
考虑回归问题,决策阶段包括对于每个输入x \boldsymbol x x ,选择一个对于t t t 值的具体的估计y ( x ) y(\boldsymbol x) y ( x ) ,造成损失L ( t , y ( x ) ) L(t,y(\boldsymbol x)) L ( t , y ( x ) ) 。平均损失(期望损失):E [ L ] = ∫ ∫ L ( t , y ( x ) ) p ( x , t ) d x d t
\mathbb E[L]=\int\int L(t,y(\boldsymbol x))p(\boldsymbol x,t)d\boldsymbol xdt
E [ L ] = ∫ ∫ L ( t , y ( x ) ) p ( x , t ) d x d t
L ( t , y ( x ) ) = { y ( x ) − t } 2
L(t,y(\boldsymbol x))=\left\{y(\boldsymbol x)-t\right\}^2
L ( t , y ( x ) ) = { y ( x ) − t } 2
E [ L ] = ∫ ∫ { y ( x ) − t } 2 p ( x , t ) d x d t
\mathbb E[L]=\int\int \left\{y(\boldsymbol x)-t\right\}^2 p(\boldsymbol x,t)d\boldsymbol xdt
E [ L ] = ∫ ∫ { y ( x ) − t } 2 p ( x , t ) d x d t
目标:选择y ( x ) y(\boldsymbol x) y ( x ) 来最小化E [ L ] \mathbb E[L] E [ L ] .使用变分法求解∂ E [ L ] ∂ y ( x ) = 2 ∫ { y ( x ) − t } p ( x , t ) d t = 0
\frac{\partial {\mathbb E[L]}}{\partial {y(\boldsymbol x)}}=2\int \left\{y(\boldsymbol x)-t\right\}p(\boldsymbol x,t)dt=0
∂ y ( x ) ∂ E [ L ] = 2 ∫ { y ( x ) − t } p ( x , t ) d t = 0
求解y ( x ) y(\boldsymbol x) y ( x ) :∫ y ( x ) p ( x , t ) d t = ∫ t p ( x , t ) d t
\int y(\boldsymbol x)p(\boldsymbol x,t)dt=\int tp(\boldsymbol x,t)dt
∫ y ( x ) p ( x , t ) d t = ∫ t p ( x , t ) d t
y ( x ) ∫ p ( x , t ) d t = y ( x ) p ( x ) = ∫ t p ( x , t ) d t
y(\boldsymbol x)\int p(\boldsymbol x,t)dt=y(\boldsymbol x)p(\boldsymbol x)=\int tp(\boldsymbol x,t)dt
y ( x ) ∫ p ( x , t ) d t = y ( x ) p ( x ) = ∫ t p ( x , t ) d t
y ( x ) = ∫ t p ( x , t ) d t p ( x ) = ∫ t p ( t ∣ x ) d t = E t [ t ∣ x ]
y(\boldsymbol x)=\frac{\int tp(\boldsymbol x,t)dt}{p(\boldsymbol x)}=\int tp(t|\boldsymbol x)dt=\mathbb E_t[t|\boldsymbol x]
y ( x ) = p ( x ) ∫ t p ( x , t ) d t = ∫ t p ( t ∣ x ) d t = E t [ t ∣ x ]
在x \boldsymbol x x 的条件下t t t 的条件均值----回归函数(regression function)。这种情况下,最优解是条件均值y ( x ) = E t [ t ∣ x ] \boldsymbol y(\boldsymbol x)=\mathbb E_t[\boldsymbol t|\boldsymbol x] y ( x ) = E t [ t ∣ x ]
另一种推导方法:{ y ( x ) − t } 2 = { y ( x ) − E [ t ∣ x ] + E [ t ∣ x ] − t } 2
\left\{y(\boldsymbol x)-t\right\}^2=\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]+\mathbb E[t|\boldsymbol x]-t\right\}^2
{ y ( x ) − t } 2 = { y ( x ) − E [ t ∣ x ] + E [ t ∣ x ] − t } 2
= { y ( x ) − E [ t ∣ x ] } 2 + 2 { y ( x ) − E [ t ∣ x ] } { E [ t ∣ x ] − t } + { E [ t ∣ x ] − t } 2
=\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}^2+2\left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}\left\{\mathbb E[t|\boldsymbol x]-t\right\}+\left\{\mathbb E[t|\boldsymbol x]-t\right\}^2
= { y ( x ) − E [ t ∣ x ] } 2 + 2 { y ( x ) − E [ t ∣ x ] } { E [ t ∣ x ] − t } + { E [ t ∣ x ] − t } 2
其中E [ t ∣ x ] = E t [ t ∣ x ] \mathbb E[t|\boldsymbol x]=\mathbb E_t[t|\boldsymbol x] E [ t ∣ x ] = E t [ t ∣ x ] ,因此损失函数为E [ L ] = ∫ { y ( x ) − E [ t ∣ x ] } 2 p ( x ) d x + ∫ { E [ t ∣ x ] − t } 2 p ( x ) d x
\mathbb E[L]=\int \left\{y(\boldsymbol x)-\mathbb E[t|\boldsymbol x]\right\}^2p(\boldsymbol x)d\boldsymbol x+\int \left\{\mathbb E[t|\boldsymbol x]-t\right\}^2p(\boldsymbol x)d\boldsymbol x
E [ L ] = ∫ { y ( x ) − E [ t ∣ x ] } 2 p ( x ) d x + ∫ { E [ t ∣ x ] − t } 2 p ( x ) d x
当y ( x ) = E [ t ∣ x ] y(\boldsymbol x)=\mathbb E[t|\boldsymbol x] y ( x ) = E [ t ∣ x ] 时第一项取得最小值,消掉第一项。和之前的一样表明,最优的最⼩平⽅预测由条件均值给出。
第二项是t t t 的分布的方差,在x \boldsymbol x x 上的平均。表示目标数据内在的变化性,可以被看做噪声,是损失函数的不可减小的最小值。
三种解决回归问题的方法(复杂度降低的顺序):
方法一:
解决确定联合概率密度p ( x , t ) p(\boldsymbol x,t) p ( x , t ) 的推断问题
计算条件概率密度p ( t ∣ x ) p(t|\boldsymbol x) p ( t ∣ x )
求出条件均值
方法二:
首先解决条件概率密度p ( t ∣ x ) p(t|\boldsymbol x) p ( t ∣ x ) 的推断问题
计算条件均值
方法三:
直接从训练数据中寻找一个回归函数y ( x ) y(\boldsymbol x) y ( x )
平方损失函数的一种推广----闵可夫斯基损失函数(Minkowski loss)
期望为E [ L q ] = ∫ ∫ ∣ y ( x ) − t ∣ q p ( x , t ) d x d t
\mathbb E[L_q]=\int \int |y(\boldsymbol x)-t|^qp(\boldsymbol x,t)d\boldsymbol xdt
E [ L q ] = ∫ ∫ ∣ y ( x ) − t ∣ q p ( x , t ) d x d t
当q = 2时,E [ L q ] \mathbb E[L_q] E [ L q ] 的最⼩值是条件均值。当q = 1时, E [ L q ] \mathbb E[L_q] E [ L q ] 的最⼩值是条件中位 数。当q → 0 q\to 0 q → 0 时, E [ L q ] \mathbb E[L_q] E [ L q ] 的最⼩值是条件众数
1.6信息论
信息量:
有两个不相关的事件x x x 和y y y ,
观察到两个事件同时发生时获得的信息等于观察到事件各自发生时获得的信息之和,即h ( x , y ) = h ( x ) + h ( y )
h(x,y)=h(x)+h(y)
h ( x , y ) = h ( x ) + h ( y )
两个不相关事件是统计独立的,即p ( x , y ) = p ( x ) p ( y )
p(x,y)=p(x)p(y)
p ( x , y ) = p ( x ) p ( y )
因此有h ( x ) = − log 2 p ( x )
h(x)=-\log_2p(x)
h ( x ) = − log 2 p ( x )
其中负号确保了信息⼀定是正数或者是零。信息论的普遍传统使用2作为对数的底,单位是bit
随机变量x x x 的熵:
假设想传输一个随机变量x x x 的值,传输的平均信息量(即期望)为H [ x ] = − ∑ x p ( x ) log 2 p ( x )
H[x]=-\sum_xp(x)\log_2p(x)
H [ x ] = − x ∑ p ( x ) log 2 p ( x )
注意lim p → 0 p log ) 2 p ( x ) = 0 \lim_{p\to 0}p\log)2p(x)=0 lim p → 0 p log ) 2 p ( x ) = 0 ,因此只要有x x x 使得p ( x ) = 0 p(x)=0 p ( x ) = 0 ,就该令p ( x ) log 2 p ( x ) = 0 p(x)\log_2p(x)=0 p ( x ) log 2 p ( x ) = 0
非均匀分布比均匀分布的熵小。
熵是传输一个随机变量状态值所需的比特位的下界。
编码的平均长度:
使用更短的编码描述更可能的事件,更长的编码描述不太可能的事件
使用编码串:0、10、110、1110、111100、111101、111110、111111表示状态{a , b , c , d , e , f , g , h a,b,c,d,e,f,g,h a , b , c , d , e , f , g , h }
传输的编码的平均长度是a v e r a g e c o d e l e n g t h = 1 2 × 1 + 1 4 × 2 + 1 8 × 3 + 1 16 × 4 + 4 × 1 64 × 6 = 2 b i t s
average code length=\frac{1}{2}\times 1+\frac{1}{4}\times 2+\frac{1}{8}\times 3+\frac{1}{16}\times 4+4\times \frac{1}{64}\times 6=2 bits
a v e r a g e c o d e l e n g t h = 2 1 × 1 + 4 1 × 2 + 8 1 × 3 + 1 6 1 × 4 + 4 × 6 4 1 × 6 = 2 b i t s
注意不能使用更短的编码串,因为必须能够从多个这种字符串的拼接中分割出各个独立的字符串。如11001110唯一的编码了状态序列c , a , d c,a,d c , a , d
熵等同于最短编码长度
熵的理解:
最早源于物理学,描述统计力学中的无序程度的度量。
考虑⼀个集合,包含N N N 个完全相同的物体,这些 物体要被分到若⼲个箱⼦中,使得第i i i 个箱⼦中有n i n_i n i 个物体。考虑把物体分配到箱子中的不同方案的数量。有N N N 种方式选择第一个物体,N − 1 N-1 N − 1 种方式选择第二个物体,总共有N ! N! N ! 种方式把N N N 个物体分配到箱子中。在第i i i 个箱⼦中,有n i n_i n i 种方式对物体重新排序。不区分每个箱子内部物体的重新排列。总方案数量为W = N ! ∏ i n i !
W=\frac{N!}{\prod_in_i!}
W = ∏ i n i ! N !
称为乘数(multiplicity)。
熵被定义为通过适当的参数放缩后的对数乘数,即H = 1 N ln W = 1 N ln N ! − 1 N ∑ i ln n i !
H=\frac{1}{N}\ln W=\frac{1}{N}\ln N!-\frac{1}{N}\sum_i\ln n_i!
H = N 1 ln W = N 1 ln N ! − N 1 i ∑ ln n i !
考虑极限N → ∞ N\to \infty N → ∞ ,保持比值n i N \frac{n_i}{N} N n i 固定,使用Stirling的估计ln N ! ≃ N ln N − N
\ln N!\simeq N\ln N-N
ln N ! ≃ N ln N − N
p i = lim N → ∞ ( n i N )
p_i=\lim_{N\to \infty}(\frac{n_i}{N})
p i = N → ∞ lim ( N n i )
得到H = 1 N ln N ! − 1 N ∑ i ln n i ! = 1 N ( N ln N − N ) − 1 N ∑ i ( n i ln n i − n i )
H=\frac{1}{N}\ln N!-\frac{1}{N}\sum_i\ln n_i!=\frac{1}{N}(N\ln N-N)-\frac{1}{N}\sum_i(n_i\ln n_i-n_i)
H = N 1 ln N ! − N 1 i ∑ ln n i ! = N 1 ( N ln N − N ) − N 1 i ∑ ( n i ln n i − n i )
= ln N − 1 − ∑ i n i N ln n i + 1 N ∑ i n i = ln N − ∑ i n i N ln n i
=\ln N-1-\sum_i\frac{n_i}{N}\ln n_i+\frac{1}{N}\sum_in_i=\ln N-\sum_i\frac{n_i}{N}\ln n_i
= ln N − 1 − i ∑ N n i ln n i + N 1 i ∑ n i = ln N − i ∑ N n i ln n i
= ∑ i n i N ln N − ∑ i n i N ln n i = − lim N → ∞ ∑ i n i N ln n i N = − ∑ i p i ln p i
=\sum_i\frac{n_i}{N}\ln N-\sum_i\frac{n_i}{N}\ln n_i=-\lim_{N\to \infty}\sum_i\frac{n_i}{N}\ln \frac{n_i}{N}=-\sum_ip_i\ln p_i
= i ∑ N n i ln N − i ∑ N n i ln n i = − N → ∞ lim i ∑ N n i ln N n i = − i ∑ p i ln p i
微观状态(microstate):箱子中物体的具体分配方案
宏观状态(macrostate):整体的占领数的分布,表示为比值n i N \frac{n_i}{N} N n i 。乘数W W W 称为宏观状态的权重
把箱子表述成离散随机变量X X X 的状态x i x_i x i ,其中p ( X = x i ) = p i p(X=x_i)=p_i p ( X = x i ) = p i 。
H [ p ] = − ∑ i p ( x i ) ln p ( x i )
H[p]=-\sum_ip(x_i)\ln p(x_i)
H [ p ] = − i ∑ p ( x i ) ln p ( x i )
熵的最大值:
使用拉格朗日乘数法最大化H ~ = − ∑ i p ( x i ) ln p ( x i ) + λ ( ∑ i p ( x i ) − 1 )
\tilde H=-\sum_ip(x_i)\ln p(x_i)+\lambda(\sum_ip(x_i)-1)
H ~ = − i ∑ p ( x i ) ln p ( x i ) + λ ( i ∑ p ( x i ) − 1 )
当所有的p ( x i ) p(x_i) p ( x i ) 都相等,且p ( x i ) = 1 M p(x_i)=\frac{1}{M} p ( x i ) = M 1 时,熵取得最大值。其中M M M 是状态x i x_i x i 的总数,此时H = ln M H=\ln M H = ln M
熵的二阶导数为∂ 2 H ~ ∂ p ( x i ) ∂ p ( x i ) = − I i j 1 p i
\frac{\partial ^2\tilde H}{\partial p(x_i)\partial p(x_i)}=-I_{ij}\frac{1}{p_i}
∂ p ( x i ) ∂ p ( x i ) ∂ 2 H ~ = − I i j p i 1
其中I i j I_{ij} I i j 是单位矩阵的元素
连续变量的概率分布p ( x ) p(x) p ( x )
把x x x 切分成宽度为Δ \Delta Δ 的箱子,假设p ( x ) p(x) p ( x ) 是连续的,均值定理表示,对于每个这样的箱子,一定存在一个值x i x_i x i 使得H Δ = − ∑ i p ( x i ) Δ ln ( p ( x i ) Δ ) = − ∑ i p ( x i ) Δ ln p ( x i ) − ln Δ
H_{\Delta}=-\sum_ip(x_i)\Delta\ln(p(x_i)\Delta)=-\sum_ip(x_i)\Delta\ln p(x_i)-\ln \Delta
H Δ = − i ∑ p ( x i ) Δ ln ( p ( x i ) Δ ) = − i ∑ p ( x i ) Δ ln p ( x i ) − ln Δ
忽略第二项− ln Δ -\ln \Delta − ln Δ ,考虑极限lim Δ → 0 { − ∑ i p ( x i ) Δ ln p ( x i ) } = − ∫ p ( x ) ln p ( x ) d x
\lim_{\Delta \to 0}\left\{-\sum_ip(x_i)\Delta\ln p(x_i)\right\}=-\int p(x)\ln p(x)dx
Δ → 0 lim { − i ∑ p ( x i ) Δ ln p ( x i ) } = − ∫ p ( x ) ln p ( x ) d x
称为微分熵(differential entropy)。
可以看出,熵的离散形式与连续形式的差是ln Δ \ln \Delta ln Δ ,在极限下发散。这说明具体化一个连续变量需要大量的比特位。
多元连续变量的微分熵为H [ x ] = − ∫ p ( x ) ln p ( x ) d x
H[\boldsymbol x]=-\int p(\boldsymbol x)\ln p(\boldsymbol x)d\boldsymbol x
H [ x ] = − ∫ p ( x ) ln p ( x ) d x
最大化微分熵时需遵循下面三个限制∫ − ∞ ∞ p ( x ) d x = 1
\int_{-\infty}^{\infty}p(x)dx=1
∫ − ∞ ∞ p ( x ) d x = 1
∫ − ∞ ∞ x p ( x ) d x = μ
\int_{-\infty}^{\infty}xp(x)dx=\mu
∫ − ∞ ∞ x p ( x ) d x = μ
∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x = σ 2
\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2
∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x = σ 2
使用拉格朗日乘数法求解最大化− ∫ p ( x ) ln p ( x ) d x + λ 1 ( ∫ − ∞ ∞ p ( x ) d x − 1 ) + λ 2 ( ∫ − ∞ ∞ x p ( x ) d x − μ )
-\int p(x)\ln p(x)dx+\lambda_1(\int_{-\infty}^{\infty}p(x)dx-1)+\lambda_2(\int_{-\infty}^{\infty}xp(x)dx-\mu)
− ∫ p ( x ) ln p ( x ) d x + λ 1 ( ∫ − ∞ ∞ p ( x ) d x − 1 ) + λ 2 ( ∫ − ∞ ∞ x p ( x ) d x − μ )
+ λ 3 ( ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x − σ 2 )
+\lambda_3(\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx-\sigma^2)
+ λ 3 ( ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x − σ 2 )
使用变分法令导数为零,有p ( x ) = exp { − 1 + λ 1 + λ 2 x + λ 3 ( x − μ ) 2 }
p(x)=\exp \left\{-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2\right\}
p ( x ) = exp { − 1 + λ 1 + λ 2 x + λ 3 ( x − μ ) 2 }
代入限制方程中,结果为p ( x ) = 1 ( 2 π σ 2 ) 1 2 exp { − ( x − μ ) 2 2 σ 2 }
p(x)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}
p ( x ) = ( 2 π σ 2 ) 2 1 1 exp { − 2 σ 2 ( x − μ ) 2 }
因此最大化微分熵的分布是高斯分布。求高斯分布的微分熵,得到H [ x ] = 1 2 { 1 + ln ( 2 π σ 2 ) }
H[x]=\frac{1}{2}\left\{1+\ln(2\pi \sigma ^2)\right\}
H [ x ] = 2 1 { 1 + ln ( 2 π σ 2 ) }
熵随着分布宽度σ 2 \sigma ^2 σ 2 的增加而增加。当σ 2 < 1 2 π e \sigma ^2<\frac{1}{2\pi e} σ 2 < 2 π e 1 时,H [ x ] < 0 H[x]<0 H [ x ] < 0
两个随机变量:
假设有一个联合概率分布p ( x , y ) p(\boldsymbol x,\boldsymbol y) p ( x , y ) 。如果x \boldsymbol x x d的值已知,需要确定对应的y \boldsymbol y y 值所需的附加的信息为− ln p ( y ∣ x ) -\ln p(\boldsymbol y|\boldsymbol x) − ln p ( y ∣ x ) 。因此用来确定y \boldsymbol y y 值的平均附加信息为H [ Y ∣ x ] = − ∫ ∫ p ( x , y ) ln p ( y ∣ x ) d y d x
H[\boldsymbol Y|\boldsymbol x]=-\int\int p(\boldsymbol x,\boldsymbol y)\ln p(\boldsymbol y|\boldsymbol x)d\boldsymbol yd\boldsymbol x
H [ Y ∣ x ] = − ∫ ∫ p ( x , y ) ln p ( y ∣ x ) d y d x
称为给定x \boldsymbol x x 的情况下,y \boldsymbol y y 的条件熵。
条件熵满足H [ x , y ] = H [ y ∣ x ] + H [ x ]
H[\boldsymbol x,\boldsymbol y]=H[\boldsymbol y|\boldsymbol x]+H[\boldsymbol x]
H [ x , y ] = H [ y ∣ x ] + H [ x ]
其中H [ x ] H[\boldsymbol x] H [ x ] 是边缘分布p ( x ) p(\boldsymbol x) p ( x ) 的微分熵。因此描述x \boldsymbol x x 和y \boldsymbol y y s所需的信息是描述x \boldsymbol x x 自己所需的信息加上给定x \boldsymbol x x 的情况下具体化y \boldsymbol y y 所需的额外信息
1.6.1相对熵和互信息
将熵的思想关联到模式识别的问题中
相对熵(relative entropy):
两个分布之间不相似程度的度量。
考虑某个未知的分布p ( x ) p(\boldsymbol x) p ( x ) ,假定使用一个近似的分布q ( x ) q(\boldsymbol x) q ( x ) 进行建模 。如果我们使用q ( x ) q(\boldsymbol x) q ( x ) 而不是真实分布p ( x ) p(\boldsymbol x) p ( x ) ,在具体化x \boldsymbol x x 的值时,需要的平均的附加信息量为K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln q ( x ) d x − ( − ∫ p ( x ) ln p ( x ) d x ) = − ∫ p ( x ) ln { q ( x ) p ( x ) } d x
KL(p||q)=-\int p(\boldsymbol x)\ln q(\boldsymbol x)d\boldsymbol x-(-\int p(\boldsymbol x)\ln p(\boldsymbol x)d\boldsymbol x)=-\int p(\boldsymbol x)\ln \left\{\frac{q(\boldsymbol x)}{p(\boldsymbol x)}\right\}d\boldsymbol x
K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln q ( x ) d x − ( − ∫ p ( x ) ln p ( x ) d x ) = − ∫ p ( x ) ln { p ( x ) q ( x ) } d x
称为分布p ( x ) p(\boldsymbol x) p ( x ) 和分布q ( x ) q(\boldsymbol x) q ( x ) 之间的相对熵,或KL散度。K L ( p ∣ ∣ q ) ̸ ≡ K L ( q ∣ ∣ p ) KL(p||q)\not\equiv KL(q||p) K L ( p ∣ ∣ q ) ̸ ≡ K L ( q ∣ ∣ p )
K L ( p ∣ ∣ q ) ≥ 0 KL(p||q)\ge 0 K L ( p ∣ ∣ q ) ≥ 0 且当且仅当p ( x ) = q ( x ) p(\boldsymbol x)=q(\boldsymbol x) p ( x ) = q ( x ) 时等号成立
证明:
凸函数(convex function):函数的每条弦都位于函数图像或其上方
位于x = a x=a x = a 到x = b x=b x = b 之间的x x x 可以写成λ a + ( 1 − λ ) b \lambda a+(1-\lambda)b λ a + ( 1 − λ ) b 的形式,其中0 ≤ λ ≤ 1 0\leq \lambda \leq 1 0 ≤ λ ≤ 1 。弦上的对应点写成λ f ( a ) + ( 1 − λ ) f ( b ) \lambda f(a)+(1-\lambda)f(b) λ f ( a ) + ( 1 − λ ) f ( b ) ,函数的对应值为f ( λ a + ( 1 − λ ) b ) f(\lambda a+(1-\lambda)b) f ( λ a + ( 1 − λ ) b ) 。凸函数的性质表示为f ( λ a + ( 1 − λ ) b ) ≤ λ f ( a ) + ( 1 − λ ) f ( b )
f(\lambda a+(1-\lambda)b)\leq \lambda f(a)+(1-\lambda)f(b)
f ( λ a + ( 1 − λ ) b ) ≤ λ f ( a ) + ( 1 − λ ) f ( b )
等价于二阶导数处处为正。等号只在λ = 0 \lambda=0 λ = 0 和λ = 1 \lambda=1 λ = 1 时取到则叫严格凸函数。
凸函数满足Jensen不等式:f ( ∑ i = 1 M λ i x i ) ≤ ∑ i = 1 M λ i f ( x i )
f(\sum_{i=1}^M\lambda _i x_i)\leq \sum_{i=1}^M\lambda _i f(x_i)
f ( i = 1 ∑ M λ i x i ) ≤ i = 1 ∑ M λ i f ( x i )
对于任意点集{x i x_i x i },都有λ i ≥ 0 \lambda _i\ge 0 λ i ≥ 0 且∑ i λ i = 1 \sum_i\lambda _i=1 ∑ i λ i = 1 。如果把λ i \lambda _i λ i 看成取值为{x i x_i x i }的离散变量x x x 的概率分布,则f ( E [ x ] ) ≤ E [ f ( x ) ]
f(\mathbb E[x])\leq \mathbb E[f(x)]
f ( E [ x ] ) ≤ E [ f ( x ) ]
连续变量,f ( ∫ x p ( x ) d x ) ≤ ∫ f ( x ) p ( x ) d x
f(\int \boldsymbol x p(\boldsymbol x)d\boldsymbol x)\leq \int f(\boldsymbol x)p(\boldsymbol x)d\boldsymbol x
f ( ∫ x p ( x ) d x ) ≤ ∫ f ( x ) p ( x ) d x
代入,得K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln { q ( x ) p ( x ) } d x ≥ − ln ∫ q ( x ) d x = 0
KL(p||q)=-\int p(\boldsymbol x)\ln \left\{\frac{q(\boldsymbol x)}{p(\boldsymbol x)}\right\}d\boldsymbol x\ge -\ln \int q(\boldsymbol x)d\boldsymbol x=0
K L ( p ∣ ∣ q ) = − ∫ p ( x ) ln { p ( x ) q ( x ) } d x ≥ − ln ∫ q ( x ) d x = 0 − ln x -\ln x − ln x 是严格凸函数,∫ q ( x ) d x = 1 \int q(\boldsymbol x)d\boldsymbol x=1 ∫ q ( x ) d x = 1 。因此只有p ( x ) = q ( x ) p(\boldsymbol x)=q(\boldsymbol x) p ( x ) = q ( x ) 时等号才成立。
建模时使用不同于真实分布的概率分布,一定会损失编码效率。
传输时增加的平均额外信息量至少或大于KL散度。
使用参数分布q ( x ∣ θ ) q(\boldsymbol x|\boldsymbol \theta) q ( x ∣ θ ) 来近似分布,K L ( p ∣ ∣ q ) ≃ 1 N ∑ n = 1 N { − ln q ( x n ∣ θ ) + ln p ( x n ) }
KL(p||q)\simeq \frac{1}{N}\sum_{n=1}{N}\left\{-\ln q(\boldsymbol x_n|\boldsymbol \theta)+\ln p(\boldsymbol x_n)\right\}
K L ( p ∣ ∣ q ) ≃ N 1 n = 1 ∑ N { − ln q ( x n ∣ θ ) + ln p ( x n ) }
第一项是使用训练集估计的分布q ( x ∣ θ ) q(\boldsymbol x|\boldsymbol \theta) q ( x ∣ θ ) 下的θ \boldsymbol \theta θ 的负对数似然函数。因此最小化KL散度等价于最大化似然函数。
互信息(mutual information):
如果两个变量不是独立的,考察联合概率分布与边缘概率分布乘积之间的KL散度:I [ x , y ] = K L ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) = − ∫ ∫ p ( x , y ) ln ( p ( x ) p ( y ) p ( x , y ) ) d x d y
I[\boldsymbol x,\boldsymbol y]=KL(p(\boldsymbol x,\boldsymbol y)||p(\boldsymbol x)p(\boldsymbol y))=-\int \int p(\boldsymbol x,\boldsymbol y)\ln (\frac{p(\boldsymbol x)p(\boldsymbol y)}{p(\boldsymbol x,\boldsymbol y)})d\boldsymbol xd\boldsymbol y
I [ x , y ] = K L ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) = − ∫ ∫ p ( x , y ) ln ( p ( x , y ) p ( x ) p ( y ) ) d x d y I [ x , y ] ≥ 0 I[\boldsymbol x,\boldsymbol y]\ge 0 I [ x , y ] ≥ 0 ,当且仅当x \boldsymbol x x 和y \boldsymbol y y 独立时等号成立
互信息与条件熵之间的关系:I [ x , y ] = H [ x ] − H [ x ∣ y ] = H [ y ] − H [ y ∣ x ]
I[\boldsymbol x,\boldsymbol y]=H[\boldsymbol x]-H[\boldsymbol x|\boldsymbol y]=H[\boldsymbol y]-H[\boldsymbol y|\boldsymbol x]
I [ x , y ] = H [ x ] − H [ x ∣ y ] = H [ y ] − H [ y ∣ x ]
因此可以把互信息看成由于知道y \boldsymbol y y 值而造成的x \boldsymbol x x 的不确定性的减小。
从贝叶斯的观点看,把p ( x ) p(\boldsymbol x) p ( x ) 看成x \boldsymbol x x 的先验概率分布,把p ( x ∣ y ) p(\boldsymbol x|\boldsymbol y) p ( x ∣ y ) 看成观察到新数据y \boldsymbol y y 之后的后验概率分布,因此互信息表示由于知道y \boldsymbol y y 值而造成的x \boldsymbol x x 的不确定性的减小