【问题标题】:Calculating optimal number of topics for topic modeling (LDA)为主题建模 (LDA) 计算最佳主题数
【发布时间】:2021-04-16 17:46:39
【问题描述】:

我将通过 LDA 进行主题建模。我运行我的命令来查看最佳主题数量。输出如下:它与我见过的任何其他地块都有点不同。你觉得可以吗?或者最好使用其他算法而不是LDA。值得一提的是,当我运行命令来可视化 10 个主题的主题关键字时,该图显示了 2 个主要主题,而其他主题几乎有很强的重叠。是否有任何有效的连贯范围?

非常感谢分享您的 cmets,因为我是主题建模的初学者。

【问题讨论】:

  • 我投票结束这个问题,因为这对于Data Science 堆栈交换来说是一个更好的问题

标签: python nlp lda topic-modeling


【解决方案1】:

无耻的自吹自擂:建议你使用OCTIS库:https://github.com/mind-Lab/octis 它允许您运行不同的主题模型并优化它们的超参数(以及主题的数量)以选择最佳结果。

您获得这些结果的原因可能有很多。但这里有一些提示和观察:

  • 确保您已对文本进行了适当的预处理。这通常包括删除标点符号和数字,删除过于频繁或罕见的停用词和单词,(可选)对文本进行词形还原。预处理取决于文本的语言和领域。
  • LDA 是一个概率模型,这意味着如果你用相同的超参数重新训练它,每次都会得到不同的结果。一个好的做法是多次运行具有相同主题数量的模型,然后平均主题连贯性。
  • 有很多主题模型,LDA 工作正常。主题模型的选择取决于您拥有的数据。例如,如果您正在处理推文(即短文本),我不建议您使用 LDA,因为它不能很好地处理稀疏文本。
  • 检查您如何设置超参数。它们可能会对主题模型的性能产生巨大影响。
  • 连贯性范围(我假设您使用的是最著名的 NPMI)在 -1 和 1 之间,但非常接近上限和下限的值非常少。

参考:https://www.aclweb.org/anthology/2021.eacl-demos.31/

【讨论】:

  • OCTIS 是一个了不起的图书馆
猜你喜欢
  • 1970-01-01
  • 2019-06-09
  • 2020-06-29
  • 1970-01-01
  • 1970-01-01
  • 2020-07-02
  • 2016-02-27
  • 2020-11-23
  • 2018-03-01
相关资源
最近更新 更多