SemEval2021 Task One
前言
好久没写blog了,最近忙着在搞SemEval2021,作为一个大三学渣的我属实有点吃力。在接下来的几个月里我会陆续更新关于我项目进程的文章,给大家来分享一下我在参赛的比赛经验,由于本人是第一次基础的到人工智能的文本分析,有什么贻笑大方的地方还望大佬们多多指教
默认读者已对相关课题有一定了解
下附SemEval2021全课题链接:
SemEval2021
一、Data Analysis
Registration and Data Download
前往课题一网站注册并下载官方的数据pdf来了解整体数据架构,并根据后续引导下载数据集。
Corpus
在官方文档中找到相关语料库:
分别为:
Bible:
Christodouloupoulos and Steedman (2015)
Europarl:
the European Pariliament proceedings selected from europarl (Koehn,2005)
Biomedical:
the CRAFT corpus (Bada et al., 2012)
Statistics
Examples:
Complexity:
Features:
HC:人工制造的特征
Glove:Glove嵌入的特征
Sent:InferSent嵌入的特征
Box plot:
箱形图显示了数据集中不同单词的注释复杂度分数的分布
二、Data Preprocessing
未完待续。。。