【发布时间】:2018-08-27 10:23:14
【问题描述】:
所以,我尝试使用 Python 中的 NLTK 对文本文件进行词性标注。 这是我使用的代码
import nltk
from nltk import word_tokenize, pos_tag
f = open('all.txt')
raw = f.read()
text = word_tokenize(raw)
paosted = nltk.pos_tag(text)
saveFile = open('ol.txt', 'w')
saveFile.write(str(paosted))
saveFile.close()
代码确实有效,但问题是它将所有文本保存在一行中,如附图所示。 as shown here .. 我知道我应该使用 "\n" 函数,但我是 python 新手,不知道怎么做,所以任何帮助将不胜感激:) ..
-------- UPDATE -----------
好吧,人们真的很有帮助并提供了一些解决方案,即这段代码:
import nltk
from nltk import word_tokenize, pos_tag
f = open('all.txt')
raw = f.read()
text = word_tokenize(raw)
paosted = nltk.pos_tag(text)
saveFile.write(str(paosted).replace('),' , '),\n'))
saveFile.close()
但我仍然需要以段落的形式使用它,因为我稍后将在索引软件中使用它。请看一下这个截图: https://i.stack.imgur.com/tU1NW.png
【问题讨论】:
-
您的问题到底是什么?为什么不在你想要换行符的字符串中添加“\n”?
-
正如我所指出的,我不知道如何(或在何处)在我的代码中添加“\n”。我是 Python 新手。
标签: python nltk pos-tagger