【问题标题】:Rules to set hyper-parameters alpha and theta in LDA model在 LDA 模型中设置超参数 alpha 和 theta 的规则
【发布时间】:2017-01-31 08:43:30
【问题描述】:

我想了解更多关于LDA模型中是否有设置超参数alpha和theta的规则。我运行库 gensim 提供的 LDA 模型:

ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=30, id2word = dictionary, passes=50, minimum_probability=0)

但我对超参数的规范有疑问。根据我在库文档中的红色,两个超参数都设置为 1/主题数。鉴于我的模型有 30 个主题,两个超参数都设置为共同值 1/30。我在描述经济活动的新闻文章中运行该模型。出于这个原因,我希望文档主题分布(theta)很高(文档中的相似主题),而主题词分布(alpha)也很高(主题共享许多共同的词,或者不对每个主题都如此独特)。因此,鉴于我对超参数的理解是正确的,1/30 是正确的规范值吗?

【问题讨论】:

    标签: lda gensim


    【解决方案1】:

    我假设您期望 theta 和 phi(文档-主题比例和主题-单词比例)更接近等概率分布,而不是稀疏分布,具有专有主题/单词。

    由于 alpha 和 beta 是对称 Dirichlet 先验的参数,它们对您想要什么有直接影响。狄利克雷分布输出概率分布。当参数为 1 时,所有可能的分布都同样喜欢结果(对于 K=2,[0.5,0.5] 和 [0.99,0.01] 具有相同的机会)。当参数>1 时,此参数表现为伪计数器,作为先验信念。对于高值,首选等概率输出 (P([0.5,0.5])>P([0.99,0.01])。参数

    但是,由于您使用的是 Gensim,您可以让模型为您学习 alpha 和 beta 值,从而可以学习非对称向量(参见 here

    alpha 可以设置为显式数组 = 您选择的先验。它也是 支持“不对称”和“自动”的特殊值:前者使用 固定归一化非对称 1.0/topicno 先验,后者学习 非对称先验直接来自您的数据。

    eta 也一样(我称之为 beta)。

    【讨论】:

      猜你喜欢
      • 2015-10-12
      • 2013-08-13
      • 1970-01-01
      • 2018-09-22
      • 2012-02-06
      • 1970-01-01
      • 2018-11-21
      • 1970-01-01
      • 2019-05-20
      相关资源
      最近更新 更多