【发布时间】:2022-01-06 08:19:12
【问题描述】:
我是一个使用 python 的新手。现在我正在为一本小说做自然语言处理,我选择从 nltk.corpus.gutenberg.fileids() 加载这本书。我只是使用“理智与情感”。然后我想分析每一章。如何将整本书分成几部分?我注意到以这种方式加载的书籍具有独特的格式。不像txt格式。
import nltk
nltk.download('gutenberg')
nltk.corpus.gutenberg.fileids()
当我打印这本书时,它显示: ['[', 'Sense', 'and', 'Sensibility', 'by', 'Jane', ...]
sense = nltk.Text(nltk.corpus.gutenberg.words('austen-sense.txt'))
print(sense)
那么这里是另一种格式:
如果我使用另一个 .txt 书源,我也不知道如何拆分章节。我已将书上传到文件夹中,然后:
text = 'senseText.txt'
【问题讨论】:
标签: python nlp format nltk wordpress-gutenberg