前言

好久没写blog了,最近忙着在搞SemEval2021,作为一个大三学渣的我属实有点吃力。在接下来的几个月里我会陆续更新关于我项目进程的文章,给大家来分享一下我在参赛的比赛经验,由于本人是第一次基础的到人工智能的文本分析,有什么贻笑大方的地方还望大佬们多多指教
默认读者已对相关课题有一定了解
下附SemEval2021全课题链接:

SemEval2021


一、Data Analysis

Registration and Data Download

前往课题一网站注册并下载官方的数据pdf来了解整体数据架构,并根据后续引导下载数据集。

SemEval2021 Task One参赛笔记(一)

Corpus

在官方文档中找到相关语料库:
分别为:
Bible:

Christodouloupoulos and Steedman (2015)

Europarl:

the European Pariliament proceedings selected from europarl (Koehn,2005)

Biomedical:

the CRAFT corpus (Bada et al., 2012)

Statistics

Examples:
SemEval2021 Task One参赛笔记(一)
Complexity:
SemEval2021 Task One参赛笔记(一)
Features:
SemEval2021 Task One参赛笔记(一)
HC:人工制造的特征
Glove:Glove嵌入的特征
Sent:InferSent嵌入的特征

Box plot:
SemEval2021 Task One参赛笔记(一)
箱形图显示了数据集中不同单词的注释复杂度分数的分布

二、Data Preprocessing

未完待续。。。

相关文章: