使 Mallet 主题建模稳定答案

【问题标题】：make Mallet topic-modeling stable使 Mallet 主题建模稳定
【发布时间】：2019-04-07 07:52:35
【问题描述】：

我正在使用 mallet 主题建模工具，并且很难使其稳定（我得到的主题似乎不太合乎逻辑）。

是否有一些最佳实践可以让该模型发挥作用？除了优化命令（什么是一个好的数字）？迭代命令的好数字是多少？
我使用 import dir 命令导入数据。在那个目录中有我的文件。这些文件是否包含带有新行的文本或仅包含很长的行是否重要？
我阅读了有关 hLDA 模型的信息。当我尝试运行它时，我看到唯一的输出是不是很清楚的 state.txt 输出。我期望像主题建模模型（topic_keys.txt、doc_topics.txt）这样的输出我怎样才能得到它们？
什么时候应该使用 hLDA 而不是主题建模？

非常感谢您的帮助！

【问题讨论】：

【解决方案1】：

主题建模中的一些良好做法参考是 The Care and Feeding of Topic Models 与 Jordan Boyd-Graber 和 Dave Newman 以及 Applied Topic Modeling 与 Jordan Boyd-Graber 和 Yuening Hu。

对于超参数优化--optimize-interval 20 --optimize-burn-in 50 应该没问题，它似乎对特定值不是很敏感。 Gibbs 采样的收敛性很难评估，默认的 1000 次迭代应该被解释为“一个足够大的数字，它可能没问题”，而不是一个特定的值。

如果您从目录中的文件中读取单个文档，则行无关紧要。如果在移除停用词之前文档的长度超过 1000 个标记，请考虑将它们分成更小的片段。

hLDA 只是因为人们似乎想要它而被包括在内，我不出于任何目的推荐它。

【讨论】：