【发布时间】:2020-09-09 05:18:47
【问题描述】:
我想在我的词云中排除“The”、“They”和“My”。我正在使用下面的 python 库“wordcloud”,并使用这 3 个额外的停用词更新 STOPWORDS 列表,但 wordcloud 仍然包括它们。我需要进行哪些更改才能排除这 3 个单词?
我导入的库是:
import numpy as np
import pandas as pd
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
我尝试在下面的 STOPWORDS 集中添加元素,但是即使成功添加了单词,wordcloud 仍然显示我添加到 STOPWORDS 集中的 3 个单词:
len(STOPWORDS)
输出:192
然后我跑了:
STOPWORDS.add('The')
STOPWORDS.add('They')
STOPWORDS.add('My')
然后我跑了:
len(STOPWORDS)
输出:195
我正在运行 python 版本 3.7.3
我知道我可以在运行 wordcloud 之前修改文本输入以删除 3 个单词(而不是尝试修改 WordCloud 的 STOPWORDS 集),但我想知道 WordCloud 是否存在错误,或者我是否没有更新/使用 STOPWORDS正确吗?
【问题讨论】:
-
您是否尝试过将停用词全部添加为小写?
-
'the'、'they' 和 'my' 小写已经在 WordCloud 的 'STOPWORDS' 列表中。我在列表中添加了“The”、“They”和“My”。尽管现在在停用词列表中,但我添加的单词并未从 wordcloud 中排除。
标签: python nlp word-cloud stop-words