官网: https://gluebenchmark.com/leaderboard
自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集,但放眼望去,General Language Understanding Evaluation (GLUE) 又是其中最为突出和亮眼的。不仅是因为数据规范,体量庞大,更是因为它同时集合了多个子任务,全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标,可见其权威性和领导力。
| 数据集 | 全称 | 领域 | 简介 | 体量 |
|---|---|---|---|---|
| CoLA | The Corpus of Linguistic Acceptability | Single-sentence Classification | 判断一个句子是否语法正确,二分类任务 | 10,657 sentences |
| SST-2 | The Stanford Sentiment Treebank | Single-sentence Classification | 判断一条电影评论积极或消极,二分类任务 | 11,855 sentences |
| STS-B | Semantic Textual Similarity Benchmark | Text Similarity | 使用 1~5 的整数来表示两个句子的语义相似度,既能看作回归任务,也能看作五分类任务 | 8,628 sentence pairs |
| QQP | Quora Question Pairs) | Pairwise Text Classsification | 判断两个句子是否语义相同,二分类任务 | > 400,000 sentence pairs |
| MRPC | Microsoft Research Paraphrase Corpus | Pairwise Text Classsification | 判断两个句子是否语义相同,二分类任务 | 5,800 sentence pairs |
| RTE | Recognizing Textual Entailment) | Pairwise Text Classsification | 判断两个句子是否能够推断/对齐,二分类任务 | - |
| MNLI | Multi-Genre Natural Language Inference | Pairwise Text Classsification | 判断两个句子语义上的 entailment/contradiction/neutral,三分类任务 | 433,000 sentence pairs |
| WNLI | Winograd Natural Language Inference | Pairwise Text Classsification | 判断两个句子的语义相似性,二分类任务 | 635 sentence pairs |
| QNLI | Question Natural Language Inference | Relevance Ranking | 前身是SQuAD1.0,给定问题,从给定的文段中挑选出包含答案的 Top 1 选项,二分类任务 | >100,000 sentence pairs |
墙内的朋友暂时没有办法查看榜单分布,在这里转载一下:(最近更新 2020/05/27)