【问题标题】:make Mallet topic-modeling stable使 Mallet 主题建模稳定
【发布时间】:2019-04-07 07:52:35
【问题描述】:

我正在使用 mallet 主题建模工具,并且很难使其稳定(我得到的主题似乎不太合乎逻辑)。

我使用了你的教程和那个:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet,我对此有一些疑问:

  1. 是否有一些最佳实践可以让该模型发挥作用?除了优化命令(什么是一个好的数字)?迭代命令的好数字是多少?
  2. 我使用 import dir 命令导入数据。在那个目录中有我的文件。这些文件是否包含带有新行的文本或仅包含很长的行是否重要?
  3. 我阅读了有关 hLDA 模型的信息。当我尝试运行它时,我看到唯一的输出是不是很清楚的 state.txt 输出。我期望像主题建模模型(topic_keys.txt、doc_topics.txt)这样的输出我怎样才能得到它们?
  4. 什么时候应该使用 hLDA 而不是主题建模?

非常感谢您的帮助!

【问题讨论】:

    标签: nlp topic-modeling mallet


    【解决方案1】:

    主题建模中的一些良好做法参考是 The Care and Feeding of Topic Models 与 Jordan Boyd-Graber 和 Dave Newman 以及 Applied Topic Modeling 与 Jordan Boyd-Graber 和 Yuening Hu。

    对于超参数优化--optimize-interval 20 --optimize-burn-in 50 应该没问题,它似乎对特定值不是很敏感。 Gibbs 采样的收敛性很难评估,默认的 1000 次迭代应该被解释为“一个足够大的数字,它可能没问题”,而不是一个特定的值。

    如果您从目录中的文件中读取单个文档,则行无关紧要。如果在移除停用词之前文档的长度超过 1000 个标记,请考虑将它们分成更小的片段。

    hLDA 只是因为人们似乎想要它而被包括在内,我不出于任何目的推荐它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-04
      • 2011-09-22
      相关资源
      最近更新 更多