【问题标题】:Setting hyperparameters of the LDA model in vowpal wabbit在 vowpal wabbit 中设置 LDA 模型的超参数
【发布时间】:2015-10-12 06:18:15
【问题描述】:

我是一个典型的、普通的、日常的 Spark 用户。在Spark's LDA 中有代表的超参数

docConcentration: 用于先验文档在主题上的分布的超参数。当前必须 > 1,其中较大的值鼓励更平滑的推断分布。 topicConcentration:主题(词)上的先验主题分布的超参数。当前必须 > 1,其中较大的值鼓励更平滑的推断分布。

这对应于文献中通常分配的 $\alpha$ 和 $\beta$ 参数(和 $k$ - 主题数)LDA 模型的对数似然函数在收敛过程中得到优化。

有谁知道在vowpal wabbit's LDA 模型中是否有任何选项可以在之前设置此类参数/参数?

【问题讨论】:

  • 我用 Dirichlet 先验和所有其他 LDA 超参数的文档更新了 wiki

标签: apache-spark lda vowpalwabbit


【解决方案1】:

检查this description of vw lda.! 我认为第 13 张幻灯片中提到的参数可能就是您要查找的参数。

【讨论】:

  • 这正是我想要的。谢谢@langusta
  • vw -h --lda 1 | grep -A 3 lda
【解决方案2】:

为了完整起见,LDA 实现提供了以下超参数:

Latent Dirichlet Allocation:
  --lda arg                             Run lda with <int> topics

  --lda_alpha arg (=0.100000001)        Prior on sparsity of per-document topic
                                        weights
  --lda_rho arg (=0.100000001)          Prior on sparsity of topic 
                                        distributions
  --lda_D arg (=10000)                  Number of documents
  --lda_epsilon arg (=0.00100000005)    Loop convergence threshold
  --minibatch arg (=1)                  Minibatch size, for LDA
  --math-mode arg (=0)                  Math mode: simd, accuracy, fast-approx
  --metrics arg (=0)                    Compute metrics

你可以找到实现细节的源代码here

或者直接跳转到source code of vw utility,它提供的参数略有不同。

【讨论】:

    猜你喜欢
    • 2015-03-29
    • 2015-10-12
    • 2016-08-22
    • 1970-01-01
    • 1970-01-01
    • 2014-11-23
    • 2017-01-31
    • 2016-01-19
    • 2015-06-20
    相关资源
    最近更新 更多