在斯坦福 CoreNlp 中，为什么不是所有专有名词（NNP）也命名实体答案

【问题标题】：In Stanford CoreNlp, why are not all proper nouns (NNP) also named entities在斯坦福 CoreNlp 中，为什么不是所有专有名词（NNP）也命名实体
【发布时间】：2020-09-03 17:25:50
【问题描述】：

我使用 Stanford CoreNlp 进行名称实体识别 (NER)。我注意到在某些情况下，它不是 100%，这很好，也不足为奇。然而，即使一个单字命名实体未被识别（即标签为O），它也有标签NNP（专有名词）。

例如，给定例句“The RestautantName in New York is the best outlet.”，nerTags() 只产生 [O, O, O, LOCATION, LOCATION, O, O, O, O, O] 正确识别“New York”。这句话的解析树看起来像

(ROOT
  (S
    (NP
      (NP (DT The) (NNP RestautantName))
      (PP (IN in)
        (NP (NNP New) (NNP York))))
    (VP (VBZ is)
      (NP (DT the) (JJS best) (NN outlet)))
    (. .)))

所以“RestaurantName”是专有名词 (NNP)

当我查找专有名词的定义时，它听起来非常接近命名实体。有什么区别？

【问题讨论】：

标签： nlp stanford-nlp named-entity-recognition

【解决方案1】：

解析器在解析树库数据上进行训练，命名实体识别器在针对 PERSON、LOCATION、ORGANIZATION、MISC 的单独命名实体数据上进行训练。

我原以为 RestaurantName 可能会被标记为 MISC，但如果它没有被标记，则意味着在命名实体的训练数据中没有真正的示例。这里的关键是解析决策和命名实体决策是完全独立于彼此的，由在不同数据上训练的不同模型完成的。

【讨论】：

【解决方案2】：

命名实体是 90 年代为信息检索/提取目的而发明的概念。更准确地说，它考虑了应用程序文本中的“兴趣名称”，例如搜索引擎。

您可以阅读the corresponding Wikipedia page

简而言之，许多命名实体不是专有名词：日期、金额、集体实体等。相反，您可能会发现不是命名实体的专有名词，但这相当少见，并且取决于应用程序。例如，语言名称（英语、法语、西班牙语）被认为是专有名词，但可能不是命名实体。历史、人类、宇宙也是如此。

所以 NLP 软件必须为每个专有名词判断它是否是一个实体以及它的类型，这并非易事。

理论上，命名实体的定义依赖于将名称绑定到对象的确定引用，无论是具体的还是抽象的。这导致了符号学和哲学上的考虑，所以我不会详细说明，但您可能会发现很多文章和书籍讨论这个概念以及它是如何在软件中实现的。

【讨论】：