【发布时间】:2018-04-19 01:51:46
【问题描述】:
我从网站下载了一篇论文,想使用 NLTK 进行完整句子的主题建模。因此,我尝试在文本文件中排除不相关的单词或不完整的句子。但是,我仍然无法删除那些单词。
我只想得到最后一句话。而下面的代码就是把一个文本分成一个句子列表。
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))
但是,我怎样才能逐行排除这些单词呢? 谢谢
【问题讨论】: