【发布时间】:2019-04-07 07:52:35
【问题描述】:
我正在使用 mallet 主题建模工具,并且很难使其稳定(我得到的主题似乎不太合乎逻辑)。
我使用了你的教程和那个:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet,我对此有一些疑问:
- 是否有一些最佳实践可以让该模型发挥作用?除了优化命令(什么是一个好的数字)?迭代命令的好数字是多少?
- 我使用 import dir 命令导入数据。在那个目录中有我的文件。这些文件是否包含带有新行的文本或仅包含很长的行是否重要?
- 我阅读了有关 hLDA 模型的信息。当我尝试运行它时,我看到唯一的输出是不是很清楚的 state.txt 输出。我期望像主题建模模型(topic_keys.txt、doc_topics.txt)这样的输出我怎样才能得到它们?
- 什么时候应该使用 hLDA 而不是主题建模?
非常感谢您的帮助!
【问题讨论】:
标签: nlp topic-modeling mallet