【发布时间】:2021-09-12 15:55:41
【问题描述】:
我正在训练一个 LDA 模型。虽然我获得了可以很好解释的主题(基于最热门的词),但特定文档往往会大量加载非常“通用”的主题而不是专门的主题——即使文档中最常见的词是专门的。
例如,我有一份房地产报告作为文档。频率最高的词是“rent”、“reit”、“growth”。现在,我有一个“专业”主题,最热门的词就是这三个。但是,专业主题的加载率为 9%,32% 的主题是非常分散且热门词比较常见的主题。
如何增加“专业”主题的权重?是否可以截断主题,使我只包含前 10 个单词并将零概率分配给其他任何内容?这样做是否可取?
我正在使用gensim 包。谢谢!
【问题讨论】: