命名实体识别数据集答案

【问题标题】：Data set for named entity recognition命名实体识别数据集
【发布时间】：2017-08-22 13:23:09
【问题描述】：

我必须为命名实体识别项目创建训练数据集。

比如我有文字

"Last year, I was in London where I saw Tom"

训练数据应该是

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw  
<ENAMEX TYPE="NAME">Tom</ENAMEX>"

手工很容易，但是当有大量数据时需要时间。我不能使用开集。我的训练数据集很小，但我应该扩展它。

如何通过扩展小型训练数据集来创建更大的训练数据集？是否有一些现成的包或开放项目？还是您建议不同的方法？

【问题讨论】：

标签： nlp dataset training-data named-entity-recognition

【解决方案1】：

首先，如果您还没有，请使用brat 之类的工具来加快注释速度。

由于您似乎在标记仅以一种方式使用过的标记，因此您可以列出它们并自动注释它们。例如，London 始终是您的位置，因此您可以将所有London 实例替换为<ENAMEX TYPE="LOCATION">London</ENAMEX>。请注意这不起作用的情况，例如土耳其或中国 (We ate turkey sandwiches off china plates.)。

有一个名为Prodigy 的测试版项目旨在让模型脱离实际，虽然我还没有机会尝试它，但它应该值得一看。

【讨论】：