使用python从文本文件中提取段落并排除目录和标题答案

【问题标题】：Using python to extract the paragraph from text file and to exclude catalog and title使用python从文本文件中提取段落并排除目录和标题
【发布时间】：2018-04-19 01:51:46
【问题描述】：

我从网站下载了一篇论文，想使用 NLTK 进行完整句子的主题建模。因此，我尝试在文本文件中排除不相关的单词或不完整的句子。但是，我仍然无法删除那些单词。

例如， the format in text file

我只想得到最后一句话。而下面的代码就是把一个文本分成一个句子列表。

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))

但是，我怎样才能逐行排除这些单词呢？谢谢

【问题讨论】：

标签： python nltk

【解决方案1】：

这可以通过对文本文件的每一行使用 split 方法来完成。

file_list = []
file = open('Your Text File.txt', 'r')
for line in file:
    splitted_lines = line.split(' ')
    if len(splitted_lines) > 1 :
        file_list.append(' '.join(splitted_lines))

outfile = ''.join(file_list)
file_out = open('outfile.txt', 'w')
file_out.write(outfile)

【讨论】：

你拯救了我的一天！