【问题标题】:How can Topic Modeling noise be removed?如何去除主题建模噪音?
【发布时间】:2015-04-20 12:44:51
【问题描述】:

我正在研究主题建模,其中给定的文本语料库在去除停用词后以支持词的形式存在大量噪音。这些词具有很高的词频,但通过使用 LDA 以及其他有用的高频词无助于形成主题词。如何消除这种噪音?

【问题讨论】:

  • 按 tf-idf 分数过滤效果不好?
  • 或者只是使用一些常用词词典。

标签: machine-learning nlp topic-modeling topic-maps


【解决方案1】:

LDA 算法在输入中不采用 tf-idf 权重,而是采用词袋,但是您可以首先根据 tf-idf 分数从语料库中过滤词,然后将新文本提供给您的 LDA 程序。

【讨论】:

    【解决方案2】:

    基本的事情是你做一个 TF-IDF 并清理分数,如果这仍然没有帮助,那么你可以创建特定领域的自定义停用词列表。假设如果我在工作域中,“工作”一词不是常规停用词,但在工作域中它是或公司名称是停用词,因为它在许多文档中重复。因此,构建自定义停用词列表是另一种方法。

    【讨论】:

      猜你喜欢
      • 2015-07-10
      • 1970-01-01
      • 2015-09-16
      • 2019-07-30
      • 1970-01-01
      • 2012-11-02
      • 2013-03-24
      • 2018-07-15
      • 2018-07-18
      相关资源
      最近更新 更多