如何创建增量 NER 训练模型（附加在现有模型中）？答案

【问题标题】：How to create incremental NER training model(Appending in existing model)?如何创建增量 NER 训练模型（附加在现有模型中）？
【发布时间】：2017-09-08 10:33:31
【问题描述】：

我正在使用 stanford NLP 训练 自定义命名实体识别（NER） 模型，但问题是我想重新训练模型 .

示例：

假设我训练了 xyz 模型，那么如果模型检测到错误，我将在一些文本上对其进行测试，然后我（最终用户）将纠正它并想要重新训练（附加模式）模型更正后的文字。

Stanford 不提供重新训练设施，这就是为什么我转向 python 的 spacy 库，在那里我可以重新训练模型意味着，我可以附加新实体到现有模型中。但是在使用 spacy 重新训练模型后，它会覆盖现有知识（意味着其中的现有训练数据）并仅显示与最近训练相关的结果。

考虑，我使用 1000 条记录在 TECHNOLOGY 标签上训练了一个模型。之后可以说我在现有实体中添加了一个 BOOK_NAME训练有素的模型。在此之后，如果我测试模型，那么 spacy 模型只会从文本中检测 BOOK_NAME。

请提出解决我的问题陈述的建议。

在此先感谢...！

【问题讨论】：

标签： machine-learning stanford-nlp spacy

【解决方案1】：

我认为在这里解决这个问题有点晚了。您面临的问题也称为'Catastrophic Forgetting problem'。您可以通过发送现有示例的示例来克服它。就像 Spacy 可以很好地预测像 BBC 语料库这样的格式良好的文本。您可以选择这样的语料库，使用预训练的 spacy 模型进行预测并创建训练示例。将这些示例与您的新示例混合，然后进行训练。你现在应该得到更好的结果。 mentioned 已经在 spacy 问题中了。

【讨论】：