【发布时间】:2020-04-14 13:02:02
【问题描述】:
我知道 NLTk 停用词有很多语言,但如果我想创建自己的停用词集并想在 NLTK 停用词中使用它们,那可行吗?
import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('My own set'))
words=["Don't", 'hesitate','to','ask','questions']
print([word for word in words if word not in stops])
【问题讨论】:
-
将其定义为
stops = ("your","stop","words")并在您的代码中使用它 -
我认为把它作为一个数组会使得程序非常慢,特别是对于 NLP 和大数据集有没有办法把它作为一个集合?
-
stops仅设置 -
你有办法将它从 txt 文件或 csv 文件导入吗?
标签: python nlp nltk stop-words