【问题标题】:Train NER model in NLTK with custom corpus使用自定义语料库在 NLTK 中训练 NER 模型
【发布时间】:2017-07-31 01:54:24
【问题描述】:

我有一个 conll2002 格式的带注释的语料库,即一个制表符分隔的文件,带有一个标记、pos-tag 和 IOB 标记,后跟实体标记。示例:

约翰·NNP B-PERSON

我想在 NLTK 中训练 葡萄牙语 NER 模型,最好是 MaxEnt 模型。我确实想在 NLTK 中使用“内置”斯坦福 NER,因为我已经能够使用独立的斯坦福 NER。我想使用 MaxEnt 模型与斯坦福 NER 进行比较。

我找到了NLTK-trainer,但我无法使用它。

我怎样才能做到这一点?

【问题讨论】:

    标签: python nlp nltk named-entity-recognition


    【解决方案1】:

    nltk book 的第 6 章和第 7 章解释了如何在 IOB 编码的语料库上训练“分块器”。第 7 章中的示例进行了 NP 分块,但这是偶然的——你的分块器会分块你训练的任何东西。您需要决定哪些特征对命名实体识别有用;第 6 章介绍了为分类器选择特征的基础知识。最后看一下nltk自己named entity chunker用到的特性的来源。他们可能也会在葡萄牙语中做得很好;那么您可以尝试添加词干或其他葡萄牙语特有的功能。

    【讨论】:

    • 谢谢,我终于弄明白了,查看我的github repository 了解更多信息。
    • 很高兴听到这个消息。如果我的回答解决了您的问题,请点击对勾“接受”。
    • 附言。看了你的页面。到目前为止,你的表现非常糟糕......
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-07-03
    • 2020-08-08
    • 1970-01-01
    • 2020-08-30
    • 1970-01-01
    • 2019-01-06
    • 1970-01-01
    相关资源
    最近更新 更多