如果在我们的分类问题中,输入特征x是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了。

以二分类问题为例进行说明,模型建立如下:

  1. 样本输入特征为y∈{0,1};
  2. 样本类别y∼Bernoulli(ϕ);
  3. 两类样本分别服从不同的高斯分布,即x|y=0∼N(μ0,Σ),x|y=1∼N(μ1,Σ);

对应的概率分布形式如下:

(1)p(y)=ϕy(1−ϕ)1−y

 

(2)p(x|y=0)=1(2π)n2|Σ|12exp⁡(−12(x−μ0)TΣ−1(x−μ0))


(3)p(x|y=1)=1(2π)n2|Σ|12exp⁡(−12(x−μ1)TΣ−1(x−μ1))


(4)p(x|y)=1(2π)n2|Σ|12exp⁡(−12(x−μy)TΣ−1(x−μy))

 

我们模型的参数包括Σ。

给定包含S={(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))},似然函数形式如下:

相关文章: