天池文本分类比赛
task1 赛题理解
本人的工作是CV算法这是第一次接触NLP相关的任务谈谈自己的简单理解。我的出发点会着重CV与NLP的对比出发。
这次的任务是对文本对象进行分类。需要对给定的已经经过匿名处理后的新闻做类别划分,一共有14个类别。这个任务非常类型图像中的图像分类任务,比如Minist数据集中对数字进行分类。
1.文本分类的基本输入是单个文字,图像,图像分类输入的基本元素是单个像素点的像素值。
2.文本是一维数据,并且处理文本数据需要把文本信息向量化再处理,而图像数据可以直接送到CNN处理。
3.文本数据长度不定,图像数据虽然大小不同,但是可以resize,目前还不了解文本有类似的处理方法。
解题思路
- 机器学习算法 (特征提取器+机器学习分类器)
- 深度学习(词向量+深度学习分类器)
- 目前最火的Bert
接下来的时间会从以上三个思路逐层输入学习文本处理的方法。