【发布时间】:2021-05-01 20:11:23
【问题描述】:
我的数据集有 42,000 行。这是我在矢量化之前用来编辑文本的代码。然而问题是它有一个嵌套的 for 循环,我猜这让它非常慢,而且我无法在超过 1500 行的情况下使用它。有人可以帮忙找出更好的方法吗?
filtered = []
for i in range(2):
rev = re.sub('[^a-zA-Z]', ' ', df['text'][i])
rev = rev.lower()
rev = rev.split()
filtered =[]
for word in rev:
if word not in stopwords.words("english"):
word = PorterStemmer().stem(word)
filtered.append(word)
filtered = " ".join(filtered)
corpus.append(filtered)
【问题讨论】:
-
请阅读ml标签的描述。
标签: nlp nltk sentiment-analysis