【问题标题】:evaluation NLP classifier with annotated data带有注释数据的评估 NLP 分类器
【发布时间】:2018-01-09 04:14:10
【问题描述】:

如果我们想用带有两个注释器注释的数据来评估 NLP 应用程序的分类器,并且它们在注释上没有完全一致,那么程序是怎样的? 也就是说,我们是否应该将分类器输出与注释者同意的部分数据进行比较?还是只是注释器数据之一?还是分别计算平均值?

【问题讨论】:

    标签: annotations nlp classification evaluation


    【解决方案1】:

    在注释者之间进行多数投票是很常见的。消除分歧也已完成。

    Here 是关于该主题的博文:

    假设我们有一堆注释器,但我们在项目上没有完全一致。我们做什么?好吧,在实践中,机器学习评估倾向于(1)在没有达成一致的情况下丢弃示例(例如,RTE 评估、一些具有生物创造力的命名实体评估等),或者(2)使用多数标签(其他一切我了解)。无论哪种方式,我们都通过将标签降低到人为确定性来丢弃大量信息。您可以通过模拟很容易地看到这一点,Raykar 等人。用真实数据展示出来。

    什么适合您在很大程度上取决于您的数据以及注释者的不同意见;对于初学者,为什么不只使用他们同意的项目,然后将模型与他们不同意的模型进行比较?

    【讨论】:

      猜你喜欢
      • 2017-06-10
      • 2016-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-24
      • 1970-01-01
      • 2013-05-08
      • 2021-04-10
      相关资源
      最近更新 更多