隐含变量模型
介绍
相对于标准的回归模型来说,隐含变量模型具有以下两个优点:1)可以描述丢失的信息;2)可以对预测进行不确定性描述。其中,隐含变量是不可观测的变量,比如人的健康。人的体重身高都是可测量的,但是人的健康是不可观测的。
假设某公司需要从应聘者筛选出参加现场面试的人选,他将从高中成绩,大学成绩,IQ分数,电话面试情况进行判断,如下图所示。为了有效描述missing data以及提供预测的不确定性,采用概率模型,如下图所示。假设以上影响因素为{x1,x2,x3,x4,x5},则概率模型为:
为了进一步简化模型,我们引入隐含变量intelligence,如下图所示。概率模型可以简化为:
小结
隐含变量模型
1)优点:可以简化模型;更少的参数;隐含变量有时会有实际含义
2)缺点:难以求解,需要较强的数学功底
聚类
分类类别
分类分为硬分类(hard clustering)和软分类(soft clustering)。硬分类指的是仅仅得到数据点所属的某个类别,而软分类是得到数据点属于不同的类别的概率。即:
软分类
超参数
混合高斯模型(GMM)属于软分类,可以计算每个点属于每个类别的概率。在GMM模型中,随着类别数目的增加,训练的似然函数值越高,训练效果越好;验证效果随着类别数目增加,在一定范围内持续增加,后续呈下降的趋势,说明通过GMM方法能够找到一个合理的超参数的值。相对于GMM方法,K-means方法中的训练和验证效果均随着类别数目增加而增加,所以他不能为我们决策提供相对最优的超参数值。因此,从这方面来看,概率模型可以帮助我们确定有效地超参数值。
数据生成
概率模型是一种生成式模型(generative model),我们可以通过概率分布生成更多的数据,可以用于训练集过程中,可以提高模型性能。
小结
如果希望能够进行软分类:
1)需要能够提供有效的超参数
2)选择一种生成式模型,可以产生大量数据