人工评价仍然是NLG任务主流的评价方式。本文旨在提高人工评价质量。
CrowdFlower 的代码,但是感觉都是前端页面的代码。。

相关方法

名称 全称 释义
Likert 李克特量表
ME magnitude estimation 量值估计
plan ME plain magnitude estimation 简单量值估计
RankME rank-based magnitude estimation 基于排序的量值估计

ME是在这篇论文中介绍的(看3.1那一节),原文如下:

Rather than giving participants a fixed scale, we used the magnitude estimation paradigm, which is more suitable to capture robust or subtle differences between the relative strength of acceptability or grammaticality violations

ME 过程是使用了拉丁方设计,让每一个人给句子打分(分数只有大于0就行),同一个人的打分再进行一个归一化到0-1之间.

RankME

RankME则是让每一个人对所有的候选句子进行一个relative ranking(RR)。但是怎么做relative ranking并没有之间提到,但是论文说该方法综合了 ContinuseScale(CS)、MagnitudeEstimation(ME)、Relative
Assessment

和relative ranking最近的就是最后一篇论文,而在那篇论文中,RR的过程就是把候选句子按照句子质量,由好到坏排一下。

但是在这里,他给了ME的打分准则,我在原文中是没有看到的。
论文阅读-RankME: Reliable Human Ratings for Natural Language Generation

相关文章:

  • 2021-08-20
  • 2021-12-31
  • 2021-12-02
  • 2022-01-01
  • 2022-12-23
  • 2021-09-04
  • 2021-05-29
  • 2022-01-11
猜你喜欢
  • 2021-07-24
  • 2022-01-06
  • 2021-11-09
  • 2021-05-28
  • 2021-08-05
  • 2022-02-19
  • 2021-07-08
相关资源
相似解决方案