【发布时间】:2016-11-19 15:42:50
【问题描述】:
我正在处理非常短的字符串,其中一些是愚蠢的。假设,我可以有一个字符串“you an a”,如果我删除停用词,该字符串将是空白的。由于我在循环中进行分类,因此如果涉及空白字符串,它只会因错误而停止。我创建了以下代码来解决这个问题:
def title_features(words):
filter_words = [word for word in words.split() if word not in stopwords.words('english')]
features={}
if len(filter_words) >= 1:
features['First word'] = ''.join(filter_words[0])
else:
features['First word'] = ''.join(words.split()[0])
return features
这确保我没有错误,但我想知道是否有更有效的方法来做到这一点。或者,如果它们都是停用词,它不会删除所有单词。
【问题讨论】:
-
听起来移除停用词对您的语料库来说不是一个好主意...
-
并非所有人都这样。我不确定这是否是个好主意,但我会测试一下。