【问题标题】:Named entity recognition : For new/latest entities命名实体识别:对于新的/最新的实体
【发布时间】:2014-10-08 16:49:24
【问题描述】:

对不起那个奇怪的“问题标题”,但我想不出合适的标题。

我是 NLP 概念的新手,所以我使用了 NER 演示 (http://cogcomp.cs.illinois.edu/demo/ner/results.php)。现在的问题是“如何以及以何种方式”我可以使用 NER 完成的这些标记。我的意思是这些可以从这些已被标记在某些组中的命名实体中得出什么答案或推论 - 位置、人员、组织等。如果我有一个包含全新公司、地点等名称的数据,那么我将如何为这样的数据做这些 NER 标记?

请不要拒绝或阻止我,我只需要指导/专家建议就可以了。阅读一个概念是另一回事,而能够知道何时何地应用它是另一回事,这就是我寻求指导的地方。非常感谢!!!

演示中的一个 sn-p:-

狗已经在货物区域使用了一段时间,但最近才被引入 LOC NewarkLOC JFK 机场的乘客区。 LOC JFK 有一只狗,LOC Newark 有一只狗 少数,PER Farbstein 说。

【问题讨论】:

    标签: python nlp nltk named-entity-recognition


    【解决方案1】:

    通常 NER 是管道中的一个步骤。例如,一旦标记了所有实体,如果您有很多类似[PER John Smith], CEO of [ORG IBM] said... 的句子,那么您可以设置一个公司和 CEO 表。这是knowledge base population 的一种形式。

    不过,还有很多其他用途,具体取决于您已经拥有的数据类型以及您想要完成的任务。

    【讨论】:

    • 例如,我有 100 万条推文谈论苹果手机,我想将它们归类为信息共享者,讨论价格,询问可用性等。然后在这种情况下,我想有不会有更大的知识库。那么在这种情况下,NER如何帮助我成为解决这个问题的中间步骤?谢谢
    • 我不确定 NER 是否会在该用例中为您提供帮助。您正在尝试进行的操作称为文档分类。 en.wikipedia.org/wiki/Document_classification 特别是如果您可以选择足够小的类别组。您可以在分类器中使用 NER 作为特征,但如果您已经知道所有推文都是关于苹果的,那么我不知道您会从中获得什么。
    • 谢谢 aelfric,这就是为什么当 sumbdy 建议我时我对 NER 感到困惑的原因。虽然我在这里的案例只是将推文分类为 3/4 类别,但也可以给出一些 NER 有用的案例。 IE。它对什么样的问题有帮助以及在哪里使用它,它如何提供帮助等。谢谢
    【解决方案2】:

    我认为你的问题有两个部分:

    NER的目的是什么?

    这是一个很大的问题,通常用于信息检索 (IR) 任务,例如索引、文档分类、知识库填充 (KBP),但也用于许多其他任务(语音识别、翻译)……很难找出一个广泛的列表...

    我们如何扩展 NER 以识别新的/未知的实体?

    例如我们如何识别 NER 系统从未见过的实体。一目了然,有两种解决方案可能会奏效:

    • 假设您有一些定期更新的链接数据库:系统可能依赖于通用类别。例如,假设“Marina Silva”出现在新闻中,现在已添加到与“POLITICIAN”类别相关的词典中。由于系统知道每个政治家都应该被标记为一个人,即不依赖于词汇项而是依赖于类别,因此会将“Marina Silva”标记为 PERS 命名实体。您无需重新训练整个系统,只需更新其词典即可。
    • 使用形态和上下文线索,系统可以猜测从未见过(并且不在词典中)的新命名实体。例如,像“总统候选人 XXX YYY”(或“Marina YYY”)这样的规则会猜测“XXX YYY”(或只是“YYY”)是 PERS(或 PERS 的一部分)。这在大多数情况下都涉及概率建模。

    希望这会有所帮助:)

    【讨论】:

    • 感谢朋友的洞察力。您能否就这两点帮助我提供一些相关的“教程/如何/讲座”。据我搜索,我只能找到一些很难掌握的研究文章。所以,如果可以的话,那是我唯一需要的帮助。谢谢朋友!!!
    • 我相信这篇文章cs.washington.edu/research/projects/aiweb/media/papers/… 对命名实体识别的目标和技术进行了相当大且易于理解的概述
    猜你喜欢
    • 2014-03-17
    • 2013-10-19
    • 2015-01-11
    • 2021-05-06
    • 1970-01-01
    • 2011-07-31
    • 2018-03-08
    • 2020-07-02
    • 1970-01-01
    相关资源
    最近更新 更多