隐含变量模型

介绍

相对于标准的回归模型来说,隐含变量模型具有以下两个优点:1)可以描述丢失的信息;2)可以对预测进行不确定性描述。其中,隐含变量是不可观测的变量,比如人的健康。人的体重身高都是可测量的,但是人的健康是不可观测的。
假设某公司需要从应聘者筛选出参加现场面试的人选,他将从高中成绩,大学成绩,IQ分数,电话面试情况进行判断,如下图所示。为了有效描述missing data以及提供预测的不确定性,采用概率模型,如下图所示。假设以上影响因素为{x1,x2,x3,x4,x5},则概率模型为:2-1 隐含变量模型介绍
2-1 隐含变量模型介绍
2-1 隐含变量模型介绍
为了进一步简化模型,我们引入隐含变量intelligence,如下图所示。概率模型可以简化为:
2-1 隐含变量模型介绍
2-1 隐含变量模型介绍

小结

隐含变量模型
1)优点:可以简化模型;更少的参数;隐含变量有时会有实际含义
2)缺点:难以求解,需要较强的数学功底

聚类

分类类别

分类分为硬分类(hard clustering)和软分类(soft clustering)。硬分类指的是仅仅得到数据点所属的某个类别,而软分类是得到数据点属于不同的类别的概率。即:
2-1 隐含变量模型介绍
2-1 隐含变量模型介绍
2-1 隐含变量模型介绍

软分类

超参数

混合高斯模型(GMM)属于软分类,可以计算每个点属于每个类别的概率。在GMM模型中,随着类别数目的增加,训练的似然函数值越高,训练效果越好;验证效果随着类别数目增加,在一定范围内持续增加,后续呈下降的趋势,说明通过GMM方法能够找到一个合理的超参数的值。相对于GMM方法,K-means方法中的训练和验证效果均随着类别数目增加而增加,所以他不能为我们决策提供相对最优的超参数值。因此,从这方面来看,概率模型可以帮助我们确定有效地超参数值。
2-1 隐含变量模型介绍

数据生成

概率模型是一种生成式模型(generative model),我们可以通过概率分布生成更多的数据,可以用于训练集过程中,可以提高模型性能。

小结

如果希望能够进行软分类:
1)需要能够提供有效的超参数
2)选择一种生成式模型,可以产生大量数据

相关文章:

  • 2022-12-23
  • 2021-09-05
  • 2021-07-23
  • 2021-06-19
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-05-16
  • 2021-12-18
  • 2022-12-23
  • 2021-10-26
  • 2021-06-11
相关资源
相似解决方案