【问题标题】:LDA detect new emerging topicsLDA 检测新出现的主题
【发布时间】:2019-09-25 10:10:18
【问题描述】:

感谢您的光临。我有一个方向性问题 - 我已经使用 Gensims Mallet 包装器构建了一个潜在的 Dirichlet 分配。我在 OldDataSet.csv 上训练了一次模型并测量了一致性。我一直在使用它来传递 NewDataSet.csv 以进行主题分配。我需要一些关于如何能够预测我的预训练模型分配 NewDataSet.csv 的准确度的指导。该一致性分数仅检查预训练模型的准确性,而不是分配的数据集。我想要一种方法来跟踪历史主题的出现并检测新主题的出现,而无需重新训练模型。比如说这些是 OldDataSet.csv 中的主题:

  1. 威士忌
  2. 探戈
  3. 狐步舞

它将分配 NewDataSet.csv 1. 威士忌 2. Tango 或 3. Foxtrot,但更准确的分配可能是:

  1. 威士忌
  2. 探戈
  3. 阿尔法

如果我继续运行相同的模型,我可能会错过这个新主题。如果存在一个数字分数来衡量主题与 NewDataSet.csv 的紧密程度,这将节省大量时间。谢谢你总是救我:)

【问题讨论】:

  • 这可能更适合Cross Validated
  • @juanpa.arrivillaga 那么,你为什么不相应地标记它?
  • @ZaccharieRamzi 你听起来有些困惑。 stats stackechange 和 Cross Validate 是完全相同的东西......
  • 哦,对了!让我摆脱那个评论。

标签: python windows machine-learning gensim lda


【解决方案1】:

我找到了一个称为动态主题建模的解决方案。我已经链接了一篇记录其使用情况的文章。它仍在研究中,但它基本上是一个考虑时间的 LDA,并且可以打印随时间变化的主题。

https://github.com/rare-technologies/gensim/blob/develop/docs/notebooks/ldaseqmodel.ipynb

还可以查看 Bleis 关于此事的谷歌谈话:

https://www.youtube.com/watch?v=7BMsuyBPx90

【讨论】:

    猜你喜欢
    • 2013-04-13
    • 2015-12-26
    • 2018-07-18
    • 1970-01-01
    • 2017-03-07
    • 2012-06-25
    • 2015-08-19
    • 2021-09-12
    • 1970-01-01
    相关资源
    最近更新 更多