【发布时间】:2018-11-22 13:50:36
【问题描述】:
我的编程技能非常有限(x10)。 但我有这个小python脚本:
#load data
files = '/Users/xxx/Desktop/Test_SP/a.txt'
file = open(files, 'rt')
text = file.read()
file.close()
# split into words
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
# stemming of words
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:20])
谁能告诉我如何为 此目录中的所有文件 (/Users/xxx/Desktop/Test_SP) 运行此脚本,而不仅仅是一次运行 1 个文件 (a.txt)
(我已经知道 glob、os.walk 等,但我无法让它发挥作用。非常感谢每一个帮助。)
【问题讨论】:
-
您一次想要一个文件,或者合并所有文件中的文本,然后进行标记化或词干化?
-
我一次想要一个文件。实际上我有第二个问题 - >我用“print(stemmed [:X])”得到输出 - 但我实际上希望程序:打开目录中的每个.txt文件 - >做东西 - >用重写每个.txt文件新的输出。
标签: python loops directory nltk stemming