【发布时间】:2018-01-09 04:14:10
【问题描述】:
如果我们想用带有两个注释器注释的数据来评估 NLP 应用程序的分类器,并且它们在注释上没有完全一致,那么程序是怎样的? 也就是说,我们是否应该将分类器输出与注释者同意的部分数据进行比较?还是只是注释器数据之一?还是分别计算平均值?
【问题讨论】:
标签: annotations nlp classification evaluation
如果我们想用带有两个注释器注释的数据来评估 NLP 应用程序的分类器,并且它们在注释上没有完全一致,那么程序是怎样的? 也就是说,我们是否应该将分类器输出与注释者同意的部分数据进行比较?还是只是注释器数据之一?还是分别计算平均值?
【问题讨论】:
标签: annotations nlp classification evaluation
在注释者之间进行多数投票是很常见的。消除分歧也已完成。
Here 是关于该主题的博文:
假设我们有一堆注释器,但我们在项目上没有完全一致。我们做什么?好吧,在实践中,机器学习评估倾向于(1)在没有达成一致的情况下丢弃示例(例如,RTE 评估、一些具有生物创造力的命名实体评估等),或者(2)使用多数标签(其他一切我了解)。无论哪种方式,我们都通过将标签降低到人为确定性来丢弃大量信息。您可以通过模拟很容易地看到这一点,Raykar 等人。用真实数据展示出来。
什么适合您在很大程度上取决于您的数据以及注释者的不同意见;对于初学者,为什么不只使用他们同意的项目,然后将模型与他们不同意的模型进行比较?
【讨论】: