【问题标题】:Ground Truth datasets for Evaluating Open Source NLP tools for Named Entity Recognition用于评估命名实体识别的开源 NLP 工具的 Ground Truth 数据集
【发布时间】:2015-04-26 15:16:22
【问题描述】:

我正在为一个集合构建一个文档相似度图。我已经做了所有基本的事情,比如标记化、词干提取、停用词去除和词袋表示来表示文档并使用 Jaccard 系数计算相似度。我现在正在尝试提取命名实体并评估它们是否有助于提高文档相似度图的质量。我一直在为我的分析寻找真实数据集。我对消息理解会议 (MUC) 数据集感到非常失望。它们难以理解,需要充分的数据清理/按摩才能在不同的平台(如 Scala)上使用

我的问题在这里更具体

  1. 是否有关于 MUC 数据集入门的教程,可以更轻松地使用 openNLP 等开源 NLP 工具分析结果
  2. 还有其他可用的数据集吗?
  3. OpenNLP 和 Stanford Core NLP 等工具采用了本质上受监督的方法。正确吗?
  4. GATE 是手动注释您自己的文本语料库的绝佳工具,对吗?
  5. 对于一个新的测试数据集(我手动创建),我如何计算基线(词汇迁移)或我可以计算什么样的指标?

【问题讨论】:

    标签: dataset nlp opennlp named-entity-recognition


    【解决方案1】:

    首先,我对使用 Jaccard 系数计算相似度有一些顾虑。我希望 TF.IDF 和 cosinus 相似度能够提供更好的结果。

    您的问题的一些答案:

    1. CoNLL 203 evaluation campaign:它还提供数据、评估工具等。你也可以看看ACE
    2. 是的
    3. Gate 也是一个自动注释文本的管道,但据我所知,NER 是一个基于规则的组件。
    4. 基线大多数时候是一种非常简单的算法(例如多数类),因此它不是比较语料库的基线,而是比较方法的基线。

    【讨论】:

    • 感谢 eldams 的回复。我也尝试过 TF-IDF 和余弦。 Jaccard 比余弦更健壮。关于第 5 点)就 NER 而言,多数类是什么意思?
    • 多数类是当您为任何标记提供与训练数据集中的标记最频繁关联的类时。它为不那么模棱两可的标记提供了一个简单但相当准确的基线。整体性能取决于测试数据集中歧义和 oov(词汇外)标记的数量。
    猜你喜欢
    • 2018-03-08
    • 2020-07-02
    • 2019-07-19
    • 2022-10-14
    • 2019-11-12
    • 1970-01-01
    • 1970-01-01
    • 2015-11-17
    • 1970-01-01
    相关资源
    最近更新 更多