训练 NER 分类器以识别作者姓名

【问题标题】：Training an NER classifier to recognise Author names训练 NER 分类器以识别作者姓名
【发布时间】：2017-07-03 12:34:05
【问题描述】：

我想使用 NER（CRF 分类器）来识别查询中的作者姓名。我按照 nlp.stanford.edu 站点中给出的方法使用训练文件：training-data.col 训练了 NER。并使用文件进行测试：testing-data.tsv。

NER 将每个输入标记为作者，即使是在训练数据中标记为非作者的数据。谁能告诉我为什么 NER 将训练数据中的非作者标记为作者以及如何训练 NER 来识别作者（我有要训练的作者姓名列表）。

除 nlp.stanford.edu 网站之外的 NER 参考资料的任何建议都会有所帮助。

【问题讨论】：

【解决方案1】：

这是一小部分训练数据，所以我对它做出错误的推论并不感到惊讶。由于它看到的“Atal”的唯一示例是Author，因此它标记了“Atal”。

但更重要的是，如果你想区分开头列为Author 的人和在正文中列为0 的人，Stanford NER 不会这样做。斯坦福 NER 旨在制作long distance inferences about the named-entity tags of tokens in natural language text。换句话说，它正在做与你想做的相反的事情。

您可能可以通过一些简单的模式识别来做到这一点——如果您的文档以类似的方式格式化，并且作者在一起，我将从利用它开始。您可以使用 NER 将作者标记为 PERSON，然后将该标记用作您自己的标记中的功能。

【讨论】：