【问题标题】:what's the difference between pos_tag and UnigramTagger and BigramTagger in nltk?nltk 中的 pos_tag 和 UnigramTagger 和 BigramTagger 有什么区别?
【发布时间】:2018-01-02 09:17:26
【问题描述】:

我正在尝试弄脏 nltk。我指的是http://victoria.lviv.ua/../NaturalLanguageProcessingWithPython.pdf。它指出nltk.pos_tag 函数将词性分配给单词列表中的每个单词,并作为参数传递给它。

继续前进,我发现还有nltk.DefaultTaggernltk.RegexpTaggernltk.UnigramTaggernltk.BigramTagger

我很困惑,为什么我们需要这些标注器,因为 nltk.pos_tag 在标注词性方面做得很好。此外,nltk.pos_tag 在内部使用哪个标记器进行标记。

提前致谢。

【问题讨论】:

标签: python nlp nltk n-gram


【解决方案1】:

默认nltk.pos_tag

  • 预训练的PerceptronTagger 模型
  • 接受过 OntoNotes 5 的《华尔街日报》第 00-18 部分的培训。

数据和演练文档可在以下位置找到:


UnigramTaggerBigramTagger 是不包含预训练模型的类对象。

NLTK 书的第 5 章提供了一个介绍 POS Tagger 可用http://www.nltk.org/book/ch05.html

  • DefaultTagger:第 5 章第 4.1 节
  • RegexpTagger:第 5 章第 4.2 节
  • NgramTagger:第 5 章第 5.3 节

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-02-15
    • 1970-01-01
    • 1970-01-01
    • 2021-04-03
    • 2017-10-29
    • 2015-10-10
    • 1970-01-01
    相关资源
    最近更新 更多