【发布时间】:2017-08-22 13:23:09
【问题描述】:
我必须为命名实体识别项目创建训练数据集。
比如我有文字
"Last year, I was in London where I saw Tom"
训练数据应该是
"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw
<ENAMEX TYPE="NAME">Tom</ENAMEX>"
手工很容易,但是当有大量数据时需要时间。我不能使用开集。我的训练数据集很小,但我应该扩展它。
如何通过扩展小型训练数据集来创建更大的训练数据集?是否有一些现成的包或开放项目?还是您建议不同的方法?
【问题讨论】:
标签: nlp dataset training-data named-entity-recognition