【发布时间】:2017-02-16 09:21:26
【问题描述】:
我正在使用 Blei 开发的动态主题模型包。我是 LDA 的新手,但我理解它。
我想知道输出的名字是什么
lda-seq/topic-000-var-obs.dat商店?
我知道lda-seq/topic-001-var-e-log-prob.dat 存储变分后验的对数,通过对其应用指数,我得到了主题 001 中单词的概率。
谢谢
【问题讨论】:
标签: lda topic-modeling
我正在使用 Blei 开发的动态主题模型包。我是 LDA 的新手,但我理解它。
我想知道输出的名字是什么
lda-seq/topic-000-var-obs.dat商店?
我知道lda-seq/topic-001-var-e-log-prob.dat 存储变分后验的对数,通过对其应用指数,我得到了主题 001 中单词的概率。
谢谢
【问题讨论】:
标签: lda topic-modeling
Topic-000-var-e-log-prob.dat 存储主题1的变分后验的日志。
Topic-001-var-e-log-prob.dat 存储主题2的变分后验的日志。
【讨论】:
我在任何地方都找不到具体的答案。但是,由于文档的 sample.sh 声明
The code creates at least the following files:
- topic-???-var-e-log-prob.dat: the e-betas (word distributions) for topic ??? for all times.
...
- gam.dat
没有提及topic-000-var-obs.dat 文件,表明它对于大多数分析来说不是必须的。
obs 建议观察。在对example/model_run 结果进行了一些挖掘之后,我使用以下方法绘制了每个单词/标记跨时期的总和:
temp = scan("dtm/example/model_run/lda-seq/topic-000-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))
结果是这样的:
非负值的总体趋势正在下降,许多值都已下限(在本例中为-11.00972 = log(1.67e-05)),这表明这些值是权重或对模型影响的其他某种度量。该模型删除了一些标记,其他标记的影响/重要性在索引上逐渐减小。后面的趋势可能是由于创建字典时通过 tf-idf 对令牌进行排序等预处理造成的。
有趣的是,下限标记和具有更多正值的集合的行总和值各不相同:
temp = scan("~/Documents/Python/inference/project/dtm/example/model_run/lda-seq/topic-009-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))
【讨论】: