【问题标题】:Using python to extract the paragraph from text file and to exclude catalog and title使用python从文本文件中提取段落并排除目录和标题
【发布时间】:2018-04-19 01:51:46
【问题描述】:

我从网站下载了一篇论文,想使用 NLTK 进行完整句子的主题建模。因此,我尝试在文本文件中排除不相关的单词或不完整的句子。但是,我仍然无法删除那些单词。

例如, the format in text file

我只想得到最后一句话。而下面的代码就是把一个文本分成一个句子列表。

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))

但是,我怎样才能逐行排除这些单词呢? 谢谢

【问题讨论】:

    标签: python nltk


    【解决方案1】:

    这可以通过对文本文件的每一行使用 split 方法来完成。

    file_list = []
    file = open('Your Text File.txt', 'r')
    for line in file:
        splitted_lines = line.split(' ')
        if len(splitted_lines) > 1 :
            file_list.append(' '.join(splitted_lines))
    
    outfile = ''.join(file_list)
    file_out = open('outfile.txt', 'w')
    file_out.write(outfile)
    

    【讨论】:

    • 你拯救了我的一天!
    猜你喜欢
    • 2020-04-13
    • 2019-08-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多