LDA 检测新出现的主题答案

【问题标题】：LDA detect new emerging topicsLDA 检测新出现的主题
【发布时间】：2019-09-25 10:10:18
【问题描述】：

感谢您的光临。我有一个方向性问题 - 我已经使用 Gensims Mallet 包装器构建了一个潜在的 Dirichlet 分配。我在 OldDataSet.csv 上训练了一次模型并测量了一致性。我一直在使用它来传递 NewDataSet.csv 以进行主题分配。我需要一些关于如何能够预测我的预训练模型分配 NewDataSet.csv 的准确度的指导。该一致性分数仅检查预训练模型的准确性，而不是分配的数据集。我想要一种方法来跟踪历史主题的出现并检测新主题的出现，而无需重新训练模型。比如说这些是 OldDataSet.csv 中的主题：

威士忌
探戈
狐步舞

它将分配 NewDataSet.csv 1. 威士忌 2. Tango 或 3. Foxtrot，但更准确的分配可能是：

威士忌
探戈
阿尔法

如果我继续运行相同的模型，我可能会错过这个新主题。如果存在一个数字分数来衡量主题与 NewDataSet.csv 的紧密程度，这将节省大量时间。谢谢你总是救我:)

【问题讨论】：

这可能更适合Cross Validated
@juanpa.arrivillaga 那么，你为什么不相应地标记它？
@ZaccharieRamzi 你听起来有些困惑。 stats stackechange 和 Cross Validate 是完全相同的东西......
哦，对了！让我摆脱那个评论。

标签： python windows machine-learning gensim lda

【解决方案1】：

我找到了一个称为动态主题建模的解决方案。我已经链接了一篇记录其使用情况的文章。它仍在研究中，但它基本上是一个考虑时间的 LDA，并且可以打印随时间变化的主题。

https://github.com/rare-technologies/gensim/blob/develop/docs/notebooks/ldaseqmodel.ipynb

还可以查看 Bleis 关于此事的谷歌谈话：

https://www.youtube.com/watch?v=7BMsuyBPx90

【讨论】：