Gaussian discriminant analysis
The first generative learning algorithm that we’ll look at is Gaussian discrim-inant analysis (GDA). In this model, we’ll assume thatp(x|y) is distributedaccording to a multivariate normal distribution. Let’s talk briefly about theproperties of multivariate normal distributions before moving on to the GDAmodel itself.
The multivariate normal distribution (多元高斯分布 )
在上面的等式中,“|Σ|”表示矩阵Σ的行列式。对于随机变量X分布N(μ,Σ),平均值为(不常见 - )由μ给出:
Here’re some examples of what the density of a Gaussian distribution looks like:
最左边的图示出了平均值为零的高斯(即2x1零向量)和协方差矩阵Σ= I(2×2单位矩阵)。 具有零平均和身份协方差的高斯也被称为标准正态分布。 中间图显示了具有零均值和Σ= 0.6I的高斯密度; 最右图显示了一个,Σ= 2I。 我们看到,随着Σ变大,高斯变得更加“展开”,随着它变小,分布变得更加“压缩”。
我们来看一些更多的例子。
上面的数字分别表示平均值为0的高斯和协方差矩阵
最左边的图显示熟悉的标准正态分布,我们看到,当我们增加Σ中的非对角线条目时,密度对45°线更为“压缩”(由x1 = x2给出)。 当我们看到相同三个密度的轮廓时,我们可以更清楚地看到这一点:
高斯判别分析模型The Gaussian Discriminant Analysis model
这里,我们的模型的参数是φ,Σ,μ0和μ1。 (注意,虽然有两个不同的平均向量μ0和μ1,但是该模型通常只使用一个协方差矩阵Σ)。数据的对数最大似然性:
通过相对于参数最大化l,我们发现参数的最大似然估计为
关于极大似然估计,请查看我的另一篇博客:http://blog.csdn.net/weifenglin1997/article/details/77622804
Pictorially, what the algorithm is doing can be seen in as follows:
图中所示的是训练集,以及两个高斯分布的轮廓,这两个分布适合于两个类中的每一个中的数据。 注意,两个高斯具有相同形状和方向的轮廓,因为它们共享协方差矩阵Σ,但它们具有不同的均值μ0和μ1。 图中还显示了给出p(y = 1 | x)= 0.5的判定边界的直线。 在边界的一边,我们将预测y = 1是最可能的结果,另一方面,我们将预测y = 0。
以上便是 GDA