动态主题模型输出 - Blei 格式答案

【问题标题】：Dynamic Topic model output - Blei format动态主题模型输出 - Blei 格式
【发布时间】：2017-02-16 09:21:26
【问题描述】：

我正在使用 Blei 开发的动态主题模型包。我是 LDA 的新手，但我理解它。

我想知道输出的名字是什么 lda-seq/topic-000-var-obs.dat商店？

我知道lda-seq/topic-001-var-e-log-prob.dat 存储变分后验的对数，通过对其应用指数，我得到了主题 001 中单词的概率。

谢谢

【问题讨论】：

标签： lda topic-modeling

【解决方案1】：

Topic-000-var-e-log-prob.dat 存储主题1的变分后验的日志。

Topic-001-var-e-log-prob.dat 存储主题2的变分后验的日志。

【讨论】：

【解决方案2】：

我在任何地方都找不到具体的答案。但是，由于文档的 sample.sh 声明

The code creates at least the following files:
- topic-???-var-e-log-prob.dat: the e-betas (word distributions) for topic ??? for all times.  
...
- gam.dat

没有提及topic-000-var-obs.dat 文件，表明它对于大多数分析来说不是必须的。

推测

obs 建议观察。在对example/model_run 结果进行了一些挖掘之后，我使用以下方法绘制了每个单词/标记跨时期的总和：

temp = scan("dtm/example/model_run/lda-seq/topic-000-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE) 
plot(rowSums(temp.matrix))

结果是这样的：

非负值的总体趋势正在下降，许多值都已下限（在本例中为-11.00972 = log(1.67e-05)），这表明这些值是权重或对模型影响的其他某种度量。该模型删除了一些标记，其他标记的影响/重要性在索引上逐渐减小。后面的趋势可能是由于创建字典时通过 tf-idf 对令牌进行排序等预处理造成的。

有趣的是，下限标记和具有更多正值的集合的行总和值各不相同：

temp = scan("~/Documents/Python/inference/project/dtm/example/model_run/lda-seq/topic-009-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE) 
plot(rowSums(temp.matrix))

【讨论】：