【发布时间】:2021-05-29 23:19:10
【问题描述】:
在下面的简单 for 循环中,我迭代了 3600 多个文本,将它们标记化并将它们保存到一个列表中:
import glob
import nltk
list = []
for file in glob.glob('C:\\Users\\User\\Desktop\\fake\\*.txt'):
text = open(file,'r',encoding='utf-8').read()
tokenize = nltk.word_tokenize(text)
list.append(tokenize)
但是,当我尝试使用下面的另一个 for 循环打印出这些标记中最常见的 10 个单词时,
for tokens in list:
freq = nltk.FreqDist(tokens)
most_common = freq.most_common(10)
我最终收到一条消息,指出它找到了以下 10 个最常用的词:
[('``', 25), ("''", 23), ('que', 18), ('.', 16), ('você', 14), ('ou', 14), ('o', 12), ('e', 11), ('de', 10), ('a', 10)]
这显然是错误的,因为已经标记了 3600 个文本。我在这里错过了什么?
【问题讨论】:
标签: loops for-loop nltk tokenize