【问题标题】:Using Topic Model, how should we set up a "stop words" list?使用主题模型,我们应该如何设置“停用词”列表?
【发布时间】:2015-04-26 12:12:00
【问题描述】:
有一些标准的停用词列表,给出诸如“a the of not”之类的词要从语料库中删除。但是,我想知道,停止列表是否应该逐个更改?
比如我有10K篇来自期刊的文章,那么由于文章的结构,基本上每篇文章都会看到“introduction、review、conclusion、page”之类的词。我担心的是:我们应该从我们的语料库中删除这些词吗? (每个文件都有的词?)感谢每一个评论和建议。
【问题讨论】:
标签:
stop-words
lda
topic-modeling
text-classification
【解决方案1】:
我正在研究一个类似的问题,但涉及文本分类。根据我的经验,最好有一组特定于领域的停用词列表以及标准 .
列表。否则,如果您尝试对其进行分析,则“介绍”,“评论”等这些词将出现在术语频率矩阵中。通过赋予这些特定领域的关键字更多的权重,它可能会误导您的模型。
【解决方案2】:
值得考虑的是,停用词可能不会像您担心的那样影响您的模型。您是否尝试过不删除它们并比较结果?
另请参阅 2017 年的这篇论文:“Pulling Out the Stops: Rethinking Stopword Removal for Topic Models”。 http://www.cs.cornell.edu/~xanda/stopwords2017.pdf
最后,他们说(释义)删除停用词对 LDA 模型的质量没有真正的负面影响,如果需要,之后仍然可以在不影响模型的情况下将其删除。
或者,您始终可以自动删除文档频率较高的单词,即设置该单词可以出现的文档数量的阈值(例如 50%),然后只删除所有比停用词更频繁的单词。
我认为这不会对模型本身产生有意义的影响,但我相信它会加快模型的计算速度,因为要计算的字数更少。