Datawhale - 新闻⽂本分类 - Task1

本系列文章记录下DataWhale的组队学习活动，内容是一个新闻文本分类的天池比赛，链接。

Task1 赛题理解

Task1十分简单，只是简单的介绍些题目相关信息。

统一使用F1 Score作为衡量指标，它同时兼顾precision和recall，其值越大越好。

下图为F1 Score的数学定义，摘自百度百科。

Datawhale - 新闻⽂本分类 - Task1

本题本质是文本分类，其难点在于训练数据是匿名化的，无法使用分词等操作。（不明白为什么算是难点，因为NLP的模型输入都是index，几乎属于必须的step，而这里已经做好了）。下面是几个可能的思路

思路1：TF-IDF + Classifier

思路2：FastText

思路3: Word2Vec + DL classifer

思路4：Bert