【发布时间】:2016-10-08 15:37:43
【问题描述】:
在哪里可以找到详尽的停用词列表?我的那本很短,似乎不适用于科学文本。
我正在创建词汇链以从科学论文中提取关键主题。问题是based、regarding 等词也应该被视为停用词,因为它们没有多大意义。
【问题讨论】:
标签: nlp lexical-analysis stop-words
在哪里可以找到详尽的停用词列表?我的那本很短,似乎不适用于科学文本。
我正在创建词汇链以从科学论文中提取关键主题。问题是based、regarding 等词也应该被视为停用词,因为它们没有多大意义。
【问题讨论】:
标签: nlp lexical-analysis stop-words
您还可以轻松地添加到现有的停用词列表中。例如。使用 NLTK 工具包中的那个:
from nltk.corpus import stopwords
然后添加您认为缺少的任何内容:
stopwords = stopwords.words('english')+["based", "regarding"]
原始 NLTK 列表描述为here。
【讨论】:
很难找到一个详尽的停用词列表,因为给定的词在给定域中可以被视为停用词,但在另一个域中却是重要的词。
您可以查看一些停用词列表:
http://blog.adlegant.com/how-to-install-nltk-corporastopwords/
【讨论】: