【发布时间】:2015-04-20 12:44:51
【问题描述】:
我正在研究主题建模,其中给定的文本语料库在去除停用词后以支持词的形式存在大量噪音。这些词具有很高的词频,但通过使用 LDA 以及其他有用的高频词无助于形成主题词。如何消除这种噪音?
【问题讨论】:
-
按 tf-idf 分数过滤效果不好?
-
或者只是使用一些常用词词典。
标签: machine-learning nlp topic-modeling topic-maps