【问题标题】:Data set for named entity recognition命名实体识别数据集
【发布时间】:2017-08-22 13:23:09
【问题描述】:

我必须为命名实体识别项目创建训练数据集。

比如我有文字

"Last year, I was in London where I saw Tom"

训练数据应该是

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw  
<ENAMEX TYPE="NAME">Tom</ENAMEX>"

手工很容易,但是当有大量数据时需要时间。我不能使用开集。我的训练数据集很小,但我应该扩展它。

如何通过扩展小型训练数据集来创建更大的训练数据集?是否有一些现成的包或开放项目?还是您建议不同的方法?

【问题讨论】:

    标签: nlp dataset training-data named-entity-recognition


    【解决方案1】:

    首先,如果您还没有,请使用brat 之类的工具来加快注释速度。

    由于您似乎在标记仅以一种方式使用过的标记,因此您可以列出它们并自动注释它们。例如,London 始终是您的位置,因此您可以将所有London 实例替换为&lt;ENAMEX TYPE="LOCATION"&gt;London&lt;/ENAMEX&gt;。请注意这不起作用的情况,例如土耳其或中国 (We ate turkey sandwiches off china plates.)。

    有一个名为Prodigy 的测试版项目旨在让模型脱离实际,虽然我还没有机会尝试它,但它应该值得一看。

    【讨论】:

      猜你喜欢
      • 2017-05-18
      • 2014-03-17
      • 2013-02-09
      • 1970-01-01
      • 2011-07-31
      • 2018-03-08
      • 2020-07-02
      • 2020-09-24
      • 1970-01-01
      相关资源
      最近更新 更多