【发布时间】:2021-09-15 08:09:35
【问题描述】:
我正在尝试从 python 中的标记化文本中删除标点符号,如下所示:
word_tokens = ntlk.tokenize(text)
w = word_tokens
for e in word_tokens:
if e in punctuation_marks:
w.remove(e)
这有点工作,我设法删除了很多标点符号,但由于某种原因,word_tokens 中的许多标点符号仍然留下。 如果我再次运行代码,它会再次删除一些标点符号。运行相同的代码 3 次后,所有标记都将被删除。为什么会这样?
punctuation_marks 是列表、字符串还是字典似乎无关紧要。我也尝试过迭代 word_tokens.copy() 效果更好,它几乎第一次删除了所有标记,第二次删除了所有标记。 有没有一种简单的方法来解决这个问题,只运行一次代码就足够了?
【问题讨论】:
标签: python for-loop nlp nltk punctuation