2-1 隐含变量模型介绍

Latent Variable Models

隐含变量模型

介绍
小结

聚类

分类类别
软分类

超参数
数据生成
小结

隐含变量模型

介绍

相对于标准的回归模型来说，隐含变量模型具有以下两个优点：1）可以描述丢失的信息；2）可以对预测进行不确定性描述。其中，隐含变量是不可观测的变量，比如人的健康。人的体重身高都是可测量的，但是人的健康是不可观测的。
假设某公司需要从应聘者筛选出参加现场面试的人选，他将从高中成绩，大学成绩，IQ分数，电话面试情况进行判断，如下图所示。为了有效描述missing data以及提供预测的不确定性，采用概率模型，如下图所示。假设以上影响因素为{x1,x2,x3,x4,x5}，则概率模型为： 2-1 隐含变量模型介绍

为了进一步简化模型，我们引入隐含变量intelligence，如下图所示。概率模型可以简化为：

小结

隐含变量模型
1）优点：可以简化模型；更少的参数；隐含变量有时会有实际含义
2）缺点：难以求解，需要较强的数学功底

聚类

分类类别

分类分为硬分类（hard clustering）和软分类（soft clustering）。硬分类指的是仅仅得到数据点所属的某个类别，而软分类是得到数据点属于不同的类别的概率。即：
2-1 隐含变量模型介绍

软分类

超参数

混合高斯模型（GMM）属于软分类，可以计算每个点属于每个类别的概率。在GMM模型中，随着类别数目的增加，训练的似然函数值越高，训练效果越好；验证效果随着类别数目增加，在一定范围内持续增加，后续呈下降的趋势，说明通过GMM方法能够找到一个合理的超参数的值。相对于GMM方法，K-means方法中的训练和验证效果均随着类别数目增加而增加，所以他不能为我们决策提供相对最优的超参数值。因此，从这方面来看，概率模型可以帮助我们确定有效地超参数值。
2-1 隐含变量模型介绍

数据生成

概率模型是一种生成式模型（generative model），我们可以通过概率分布生成更多的数据，可以用于训练集过程中，可以提高模型性能。

小结

如果希望能够进行软分类：
1）需要能够提供有效的超参数
2）选择一种生成式模型，可以产生大量数据