【问题标题】:NLTK tagger reading from txt从 txt 读取的 NLTK 标记器
【发布时间】:2016-06-23 07:35:25
【问题描述】:

我在 python 上使用 NLTK。我想从 txt 中读取使用默认值、unigram 和 pos 标记器。但是我没有这样做,因为 txt 没有特定的导入标签。例如在课堂上,我们使用的是棕色等准备好的语料库。我的问题是如何使用标记器进行导入方法。最终,我希望看到每个标记器的评估性能。

【问题讨论】:

    标签: python nltk pos-tagger


    【解决方案1】:

    像这样读取文件:

    f = open('your-file.txt', 'rU') # U is for Unicode
    raw = f.read()
    tokens = nltk.word_tokenize(raw)
    

    一旦你有了一个标记化的文本,你就可以继续标记它,例如:

    def_tagger = nltk.DefaultTagger('NN')
    def_tagger.tag(tokens)
    

    这将(作为示例)将每个标记标记为 NN。要评估它,您需要手动为每个单词分配一个标签,然后:

    def_tagger.evaluate(you_manual_tagged_sents)
    

    这将返回一个介于 0(非常糟糕)和 1(完美匹配)之间的数字。

    【讨论】:

      猜你喜欢
      • 2010-12-12
      • 2011-04-25
      • 2013-03-13
      • 1970-01-01
      • 1970-01-01
      • 2013-01-08
      • 2016-11-18
      • 2016-07-02
      • 2012-01-18
      相关资源
      最近更新 更多