带有注释数据的评估 NLP 分类器答案

【问题标题】：evaluation NLP classifier with annotated data带有注释数据的评估 NLP 分类器
【发布时间】：2018-01-09 04:14:10
【问题描述】：

如果我们想用带有两个注释器注释的数据来评估 NLP 应用程序的分类器，并且它们在注释上没有完全一致，那么程序是怎样的？也就是说，我们是否应该将分类器输出与注释者同意的部分数据进行比较？还是只是注释器数据之一？还是分别计算平均值？

【问题讨论】：

标签： annotations nlp classification evaluation

【解决方案1】：

在注释者之间进行多数投票是很常见的。消除分歧也已完成。

Here 是关于该主题的博文：

假设我们有一堆注释器，但我们在项目上没有完全一致。我们做什么？好吧，在实践中，机器学习评估倾向于（1）在没有达成一致的情况下丢弃示例（例如，RTE 评估、一些具有生物创造力的命名实体评估等），或者（2）使用多数标签（其他一切我了解）。无论哪种方式，我们都通过将标签降低到人为确定性来丢弃大量信息。您可以通过模拟很容易地看到这一点，Raykar 等人。用真实数据展示出来。

什么适合您在很大程度上取决于您的数据以及注释者的不同意见；对于初学者，为什么不只使用他们同意的项目，然后将模型与他们不同意的模型进行比较？

【讨论】：