背景
为什么需要一个中文任务的基准测试
- 中文是一个大语种,有其自身的特定、大量的应用。
- 相对于英文的数据集,中文的公开可用的数据集还比较少。 很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
-
语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。 不同的预训练模型相继产生,但不少最先进的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
所以,需要有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展。
1. 中文NLU任务
一共八个,有三大类:单句、句子对、阅读理解。
1.1 单句任务
单句的分类任务。
| 数据集 | 说明 | 评价方法 |
|---|---|---|
| TNEWS | 头条的新闻标题分类任务 | acc |
| IFLYTEK | APP描述分类 | acc |
| CLUEWSC2020 | 判断给定的代词是否是给定名词的指代 | acc |
1.2 句子对任务
预测句子对之间的关系。
| 数据集 | 说明 | 评价方法 |
|---|---|---|
| AFQMC | 判断两个句子是否语义相似 | acc |
| CSL | 给定摘要和一些关键词,判断这些关键词是否是源文档的关键词 | acc |
1.3 阅读理解
| 数据集 | 说明 | 评价方法 |
|---|---|---|
| CMRC2018 | 繁体、简体抽取式阅读理解 | EM |
| ChID | 繁体、简体抽取式阅读理解 | acc |
| C 3 C^3 C3 | 多选中文阅读 | acc |
把上述内容整理一下,再给个例子
2. 工具
- 提供了一个排行榜,显示用户每次提交的情况
- 基于TensorFlow的toolkit,支持主流的预训练模型,主要是便于验证提交模型的效果
3. 验证集
为了能检验待提交模型能否“理解”中文句子,仿照GLUE建立了一个诊断珊数据集diagnostic dataset,并制定了一个任务,给定一个premise和一个hypothesis,判断二者是包含(E),相反(C)还是无关(N)。
个人理解,我来制定一个标准来衡量你的模型好坏,我的标准可以覆盖若干常见的中文NLU任务。你需要在我的工具上提交自己的模型,然后在我的验证集上看效果,来证明你模型的好坏。