【问题标题】:Focused Named Entity Recognition (NER)?重点命名实体识别(NER)?
【发布时间】:2012-04-20 01:26:42
【问题描述】:

我想识别特定领域(例如棒球)中的命名实体。我知道有可用的工具,如 StanfordNER、LingPipe、AlchemyAPI,我已经对它们进行了一些测试。但正如我之前提到的,我希望它们是特定于领域的。这怎么可能?

【问题讨论】:

  • “特定领域”是指特定领域还是领域?将 NER 训练到特定领域的特定语料库可能是一种解决方案。
  • @Kenston 我的错误。是的,我的意思是专注于特定领域。例如,如果我根据棒球运动员的名字训练 NER 分类器,它是否可以继续只接受该域的名称而不接受政治家或任何其他人的名字?他们有我想要的这种行为吗?
  • 我认为这取决于所使用的功能。如果这些特征更多地用于案例(标题或大写),那么很可能会包括政治家的名字。拥有地名录(球员姓名列表)不适合您吗?
  • 但是如何创建这样一个包含所有玩家姓名的列表呢?
  • 您可以从 Internet 上的各种来源挖掘它们,例如 Wikipedia (en.wikipedia.org/wiki/List_of_Major_League_Baseball_players) 或体育网站。这取决于您想要的详尽程度,以及您的测试数据的难度。考虑一下棒球运动员是前政治家。上下文是否表明某个名字很可能是玩家?你想在什么情况下确定球员的名字?或者您是否试图确定某个名字是否可能是棒球运动员,这意味着无论其上下文如何,它都与该名字有关?

标签: nlp machine-learning named-entity-recognition


【解决方案1】:

一种方法可能是

  1. 使用通用(非特定领域)工具检测人员姓名

  2. 使用主题分类器过滤掉不在域中的文本

如果数据集的总规模足够,并且提取器和分类器的准确率足够好,则可以使用结果获得与领域密切相关的人名列表有问题的(例如,将结果限制在那些在特定领域的文本中比在其他文本中更频繁地提及的结果)。

就棒球而言,这应该是获取与棒球相关的人员列表的一种相当好的方法。但是,仅获取棒球球员列表并不是一个好方法。对于后者,有必要分析提到名称的确切上下文以及有关它们的内容;但也许这不是必需的。

编辑: 主题分类器我的意思与其他人可能简称为分类文档分类、域分类或类似的。即用型工具的示例包括 Python-NLTK 中的分类器(示例参见 here)和 LingPipe 中的分类器(参见 here)。

【讨论】:

  • 我不知道主题分类器。你能给我一个链接吗?这就是我想要做的:为了我的研究,我正在构建一个专注的网络爬虫,它使用 NE 来指导它在给定域(例如棒球)上的爬网。爬虫可以单独由 NE 引导,也可以与基于机器学习的文档分类结合(现有方法就是这样做的)。我正在想办法做到这一点。请也看看我的这个问题 -stackoverflow.com/questions/10077647/…。我真的很感谢你的cmets。谢谢。
  • @user601357:我只是说一个文本分类器,和你所说的文档分类差不多。无论如何,我已经添加了一些指向答案的链接。
  • 谢谢。我将如何将 NE 合并到文本分类中?到目前为止,我想到的是计算不同名称实体的数量(PERS=x,LOC=y,ORG=z)并将其与普通文本分类特征一起用作特征。您对此有何看法?
  • @user601357:如果文档中提及的人员或位置的 数量 很大程度上是域的指标,我会感到惊讶。但名字本身当然是。我想最重要的是将名称本身作为特征包含在内。 (检查实际为您提供了多少额外功能非常重要。我想许多传统方法使用 POS 标记器并在功能中包含名词短语。因此,其中许多将包含名称,因为它们将它们作为名词短语)。
  • 同样使用 TF-IDF 表示,因为我们正在考虑所有术语,所以我们隐式使用 NE 对吗?那么是否有一种方法可以使用 NE 并改进文本分类?哦,我有点担心我的研究。
【解决方案2】:

查看涵盖 250 多个类别的 Smile-ner.appspot.com。特别是,它涵盖了很多体育运动的人/团队/俱乐部。可能对您的目的有用。

【讨论】:

    猜你喜欢
    • 2017-06-19
    • 2020-11-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-03
    • 2017-11-13
    • 1970-01-01
    • 2021-06-27
    相关资源
    最近更新 更多