从 txt 读取的 NLTK 标记器

【问题标题】：NLTK tagger reading from txt从 txt 读取的 NLTK 标记器
【发布时间】：2016-06-23 07:35:25
【问题描述】：

我在 python 上使用 NLTK。我想从 txt 中读取使用默认值、unigram 和 pos 标记器。但是我没有这样做，因为 txt 没有特定的导入标签。例如在课堂上，我们使用的是棕色等准备好的语料库。我的问题是如何使用标记器进行导入方法。最终，我希望看到每个标记器的评估性能。

【问题讨论】：

【解决方案1】：

像这样读取文件：

f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)

一旦你有了一个标记化的文本，你就可以继续标记它，例如：

def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)

这将（作为示例）将每个标记标记为 NN。要评估它，您需要手动为每个单词分配一个标签，然后：

def_tagger.evaluate(you_manual_tagged_sents)

这将返回一个介于 0（非常糟糕）和 1（完美匹配）之间的数字。

【讨论】：