如果在我们的分类问题中,输入特征x是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了。
以二分类问题为例进行说明,模型建立如下:
- 样本输入特征为y∈{0,1};
- 样本类别y∼Bernoulli(ϕ);
- 两类样本分别服从不同的高斯分布,即x|y=0∼N(μ0,Σ),x|y=1∼N(μ1,Σ);
对应的概率分布形式如下:
(1)p(y)=ϕy(1−ϕ)1−y
(2)p(x|y=0)=1(2π)n2|Σ|12exp(−12(x−μ0)TΣ−1(x−μ0))
(3)p(x|y=1)=1(2π)n2|Σ|12exp(−12(x−μ1)TΣ−1(x−μ1))
(4)p(x|y)=1(2π)n2|Σ|12exp(−12(x−μy)TΣ−1(x−μy))
我们模型的参数包括Σ。
给定包含S={(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))},似然函数形式如下: