【发布时间】:2019-09-25 10:10:18
【问题描述】:
感谢您的光临。我有一个方向性问题 - 我已经使用 Gensims Mallet 包装器构建了一个潜在的 Dirichlet 分配。我在 OldDataSet.csv 上训练了一次模型并测量了一致性。我一直在使用它来传递 NewDataSet.csv 以进行主题分配。我需要一些关于如何能够预测我的预训练模型分配 NewDataSet.csv 的准确度的指导。该一致性分数仅检查预训练模型的准确性,而不是分配的数据集。我想要一种方法来跟踪历史主题的出现并检测新主题的出现,而无需重新训练模型。比如说这些是 OldDataSet.csv 中的主题:
- 威士忌
- 探戈
- 狐步舞
它将分配 NewDataSet.csv 1. 威士忌 2. Tango 或 3. Foxtrot,但更准确的分配可能是:
- 威士忌
- 探戈
- 阿尔法
如果我继续运行相同的模型,我可能会错过这个新主题。如果存在一个数字分数来衡量主题与 NewDataSet.csv 的紧密程度,这将节省大量时间。谢谢你总是救我:)
【问题讨论】:
-
这可能更适合Cross Validated
-
@juanpa.arrivillaga 那么,你为什么不相应地标记它?
-
@ZaccharieRamzi 你听起来有些困惑。 stats stackechange 和 Cross Validate 是完全相同的东西......
-
哦,对了!让我摆脱那个评论。
标签: python windows machine-learning gensim lda