机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

Gaussian discriminant analysis

The first generative learning algorithm that we’ll look at is Gaussian discrim-inant analysis (GDA). In this model, we’ll assume thatp(x|y) is distributedaccording to a multivariate normal distribution. Let’s talk briefly about theproperties of multivariate normal distributions before moving on to the GDAmodel itself.

我们将要研究的第一代生成学习算法是高斯识别分析（GDA）。在这个模型中，我们假设p（x | y）是根据多元正态分布分布的。我们先谈谈多变量正态分布的属性，然后再转到GDA模型本身。

The multivariate normal distribution （多元高斯分布）

n维上的多变量正态分布也称为多变量高斯分布，通过平均矢量μ∈Rn和协方差矩阵Σ∈Rn×n进行参数化，其中Σ≥0是对称和正半定。也写入“N（μ，Σ）”，其密度由下式给出：

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

在上面的等式中，“|Σ|”表示矩阵Σ的行列式。对于随机变量X分布N（μ，Σ），平均值为（不常见 - ）由μ给出：

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

矢量值随机变量Z的协方差定义为Cov（Z）= E [（Z-E [Z]）（Z-E [Z]）T]。这概括了a的差异的概念实值随机变量。协方差也可以定义为Cov（Z）= E [ZZT] - （E [Z]）（E [Z]）T。（你应该可以证明自己这两个定义是等价的。）如果X〜N（μ，Σ），那么

Cov（X）=Σ

Here’re some examples of what the density of a Gaussian distribution looks like:

最左边的图示出了平均值为零的高斯（即2x1零向量）和协方差矩阵Σ= I（2×2单位矩阵）。具有零平均和身份协方差的高斯也被称为标准正态分布。中间图显示了具有零均值和Σ= 0.6I的高斯密度; 最右图显示了一个，Σ= 2I。我们看到，随着Σ变大，高斯变得更加“展开”，随着它变小，分布变得更加“压缩”。
我们来看一些更多的例子。

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

上面的数字分别表示平均值为0的高斯和协方差矩阵

最左边的图显示熟悉的标准正态分布，我们看到，当我们增加Σ中的非对角线条目时，密度对45°线更为“压缩”（由x1 = x2给出）。当我们看到相同三个密度的轮廓时，我们可以更清楚地看到这一点：

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

高斯判别分析模型The Gaussian Discriminant Analysis model

知识补充：关于多元高斯模型

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

这里，我们的模型的参数是φ，Σ，μ0和μ1。（注意，虽然有两个不同的平均向量μ0和μ1，但是该模型通常只使用一个协方差矩阵Σ）。数据的对数最大似然性：

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

通过相对于参数最大化l，我们发现参数的最大似然估计为

关于极大似然估计，请查看我的另一篇博客：http://blog.csdn.net/weifenglin1997/article/details/77622804

机器学习算法高斯识别分析（GDA）多元高斯分布 CS229

Pictorially, what the algorithm is doing can be seen in as follows:

图中所示的是训练集，以及两个高斯分布的轮廓，这两个分布适合于两个类中的每一个中的数据。注意，两个高斯具有相同形状和方向的轮廓，因为它们共享协方差矩阵Σ，但它们具有不同的均值μ0和μ1。图中还显示了给出p（y = 1 | x）= 0.5的判定边界的直线。在边界的一边，我们将预测y = 1是最可能的结果，另一方面，我们将预测y = 0。

以上便是 GDA