使用主题模型，我们应该如何设置“停用词”列表？答案

【问题标题】：Using Topic Model, how should we set up a "stop words" list?使用主题模型，我们应该如何设置“停用词”列表？
【发布时间】：2015-04-26 12:12:00
【问题描述】：

有一些标准的停用词列表，给出诸如“a the of not”之类的词要从语料库中删除。但是，我想知道，停止列表是否应该逐个更改？

比如我有10K篇来自期刊的文章，那么由于文章的结构，基本上每篇文章都会看到“introduction、review、conclusion、page”之类的词。我担心的是：我们应该从我们的语料库中删除这些词吗？（每个文件都有的词？）感谢每一个评论和建议。

【问题讨论】：

【解决方案1】：

我正在研究一个类似的问题，但涉及文本分类。根据我的经验，最好有一组特定于领域的停用词列表以及标准 . 列表。否则，如果您尝试对其进行分析，则“介绍”，“评论”等这些词将出现在术语频率矩阵中。通过赋予这些特定领域的关键字更多的权重，它可能会误导您的模型。

【讨论】：

【解决方案2】：

值得考虑的是，停用词可能不会像您担心的那样影响您的模型。您是否尝试过不删除它们并比较结果？

另请参阅 2017 年的这篇论文：“Pulling Out the Stops: Rethinking Stopword Removal for Topic Models”。 http://www.cs.cornell.edu/~xanda/stopwords2017.pdf

最后，他们说（释义）删除停用词对 LDA 模型的质量没有真正的负面影响，如果需要，之后仍然可以在不影响模型的情况下将其删除。

或者，您始终可以自动删除文档频率较高的单词，即设置该单词可以出现的文档数量的阈值（例如 50%），然后只删除所有比停用词更频繁的单词。我认为这不会对模型本身产生有意义的影响，但我相信它会加快模型的计算速度，因为要计算的字数更少。

【讨论】：