【问题标题】:Training an NER classifier to recognise Author names训练 NER 分类器以识别作者姓名
【发布时间】:2017-07-03 12:34:05
【问题描述】:

我想使用 NER(CRF 分类器)来识别查询中的作者姓名。我按照 nlp.stanford.edu 站点中给出的方法使用训练文件:training-data.col 训练了 NER。并使用文件进行测试:testing-data.tsv

NER 将每个输入标记为作者,即使是在训练数据中标记为非作者的数据。谁能告诉我为什么 NER 将训练数据中的非作者标记为作者以及如何训练 NER 来识别作者(我有要训练的作者姓名列表)。

nlp.stanford.edu 网站之外的 NER 参考资料的任何建议都会有所帮助。

【问题讨论】:

    标签: nlp stanford-nlp named-entity-recognition


    【解决方案1】:

    这是一小部分训练数据,所以我对它做出错误的推论并不感到惊讶。由于它看到的“Atal”的唯一示例是Author,因此它标记了“Atal”。

    但更重要的是,如果你想区分开头列为Author 的人和在正文中列为0 的人,Stanford NER 不会这样做。斯坦福 NER 旨在制作long distance inferences about the named-entity tags of tokens in natural language text。换句话说,它正在做与你想做的相反的事情。

    您可能可以通过一些简单的模式识别来做到这一点——如果您的文档以类似的方式格式化,并且作者在一起,我将从利用它开始。您可以使用 NER 将作者标记为 PERSON,然后将该标记用作您自己的标记中的功能。

    【讨论】:

      猜你喜欢
      • 2015-05-24
      • 2019-01-06
      • 1970-01-01
      • 2014-04-05
      • 2019-01-02
      • 1970-01-01
      • 2018-12-04
      • 2011-12-22
      • 2018-11-19
      相关资源
      最近更新 更多