GLUE: 自然语言理解的标杆

官网: https://gluebenchmark.com/leaderboard

自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集，但放眼望去，General Language Understanding Evaluation (GLUE) 又是其中最为突出和亮眼的。不仅是因为数据规范，体量庞大，更是因为它同时集合了多个子任务，全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标，可见其权威性和领导力。

数据集	全称	领域	简介	体量
CoLA	The Corpus of Linguistic Acceptability	Single-sentence Classification	判断一个句子是否语法正确，二分类任务	10,657 sentences
SST-2	The Stanford Sentiment Treebank	Single-sentence Classification	判断一条电影评论积极或消极，二分类任务	11,855 sentences
STS-B	Semantic Textual Similarity Benchmark	Text Similarity	使用 1~5 的整数来表示两个句子的语义相似度，既能看作回归任务，也能看作五分类任务	8,628 sentence pairs
QQP	Quora Question Pairs)	Pairwise Text Classsification	判断两个句子是否语义相同，二分类任务	> 400,000 sentence pairs
MRPC	Microsoft Research Paraphrase Corpus	Pairwise Text Classsification	判断两个句子是否语义相同，二分类任务	5,800 sentence pairs
RTE	Recognizing Textual Entailment)	Pairwise Text Classsification	判断两个句子是否能够推断/对齐，二分类任务	-
MNLI	Multi-Genre Natural Language Inference	Pairwise Text Classsification	判断两个句子语义上的 entailment/contradiction/neutral，三分类任务	433,000 sentence pairs
WNLI	Winograd Natural Language Inference	Pairwise Text Classsification	判断两个句子的语义相似性，二分类任务	635 sentence pairs
QNLI	Question Natural Language Inference	Relevance Ranking	前身是SQuAD1.0，给定问题，从给定的文段中挑选出包含答案的 Top 1 选项，二分类任务	>100,000 sentence pairs

墙内的朋友暂时没有办法查看榜单分布，在这里转载一下：(最近更新 2020/05/27)
GLUE: 自然语言理解的标杆