论文地址
Github更新会更快一些

背景

为什么需要一个中文任务的基准测试

  1. 中文是一个大语种,有其自身的特定、大量的应用。
  2. 相对于英文的数据集,中文的公开可用的数据集还比较少。 很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
  3. 语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。 不同的预训练模型相继产生,但不少最先进的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
    导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

所以,需要有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展。

1. 中文NLU任务

一共八个,有三大类:单句、句子对、阅读理解。

1.1 单句任务

单句的分类任务。

数据集 说明 评价方法
TNEWS 头条的新闻标题分类任务 acc
IFLYTEK APP描述分类 acc
CLUEWSC2020 判断给定的代词是否是给定名词的指代 acc

1.2 句子对任务

预测句子对之间的关系。

数据集 说明 评价方法
AFQMC 判断两个句子是否语义相似 acc
CSL 给定摘要和一些关键词,判断这些关键词是否是源文档的关键词 acc

1.3 阅读理解

数据集 说明 评价方法
CMRC2018 繁体、简体抽取式阅读理解 EM
ChID 繁体、简体抽取式阅读理解 acc
C 3 C^3 C3 多选中文阅读 acc

把上述内容整理一下,再给个例子
论文阅读-中文任务基准测评CLUE
论文阅读-中文任务基准测评CLUE

2. 工具

  1. 提供了一个排行榜,显示用户每次提交的情况
  2. 基于TensorFlow的toolkit,支持主流的预训练模型,主要是便于验证提交模型的效果

3. 验证集

为了能检验待提交模型能否“理解”中文句子,仿照GLUE建立了一个诊断珊数据集diagnostic dataset,并制定了一个任务,给定一个premise和一个hypothesis,判断二者是包含(E),相反(C)还是无关(N)。
论文阅读-中文任务基准测评CLUE
个人理解,我来制定一个标准来衡量你的模型好坏,我的标准可以覆盖若干常见的中文NLU任务。你需要在我的工具上提交自己的模型,然后在我的验证集上看效果,来证明你模型的好坏。

相关文章: