使用自定义语料库在 NLTK 中训练 NER 模型

【问题标题】：Train NER model in NLTK with custom corpus使用自定义语料库在 NLTK 中训练 NER 模型
【发布时间】：2017-07-31 01:54:24
【问题描述】：

我有一个 conll2002 格式的带注释的语料库，即一个制表符分隔的文件，带有一个标记、pos-tag 和 IOB 标记，后跟实体标记。示例：

约翰·NNP B-PERSON

我想在 NLTK 中训练 葡萄牙语 NER 模型，最好是 MaxEnt 模型。我确实不想在 NLTK 中使用“内置”斯坦福 NER，因为我已经能够使用独立的斯坦福 NER。我想使用 MaxEnt 模型与斯坦福 NER 进行比较。

我找到了NLTK-trainer，但我无法使用它。

我怎样才能做到这一点？

【问题讨论】：

标签： python nlp nltk named-entity-recognition

【解决方案1】：

nltk book 的第 6 章和第 7 章解释了如何在 IOB 编码的语料库上训练“分块器”。第 7 章中的示例进行了 NP 分块，但这是偶然的——你的分块器会分块你训练的任何东西。您需要决定哪些特征对命名实体识别有用；第 6 章介绍了为分类器选择特征的基础知识。最后看一下nltk自己named entity chunker用到的特性的来源。他们可能也会在葡萄牙语中做得很好；那么您可以尝试添加词干或其他葡萄牙语特有的功能。

【讨论】：

谢谢，我终于弄明白了，查看我的github repository 了解更多信息。
很高兴听到这个消息。如果我的回答解决了您的问题，请点击对勾“接受”。
附言。看了你的页面。到目前为止，你的表现非常糟糕......