天池文本分类比赛

天池文本分类比赛入门

task1 赛题理解

本人的工作是CV算法这是第一次接触NLP相关的任务谈谈自己的简单理解。我的出发点会着重CV与NLP的对比出发。
这次的任务是对文本对象进行分类。需要对给定的已经经过匿名处理后的新闻做类别划分,一共有14个类别。这个任务非常类型图像中的图像分类任务,比如Minist数据集中对数字进行分类。
1.文本分类的基本输入是单个文字,图像,图像分类输入的基本元素是单个像素点的像素值。
2.文本是一维数据,并且处理文本数据需要把文本信息向量化再处理,而图像数据可以直接送到CNN处理。
3.文本数据长度不定,图像数据虽然大小不同,但是可以resize,目前还不了解文本有类似的处理方法。

解题思路

  1. 机器学习算法 (特征提取器+机器学习分类器)
  2. 深度学习(词向量+深度学习分类器)
  3. 目前最火的Bert

接下来的时间会从以上三个思路逐层输入学习文本处理的方法。

相关文章:

  • 2021-08-03
  • 2021-12-10
  • 2021-12-18
  • 2021-06-05
  • 2021-06-14
猜你喜欢
  • 2021-07-20
  • 2021-10-16
  • 2021-09-10
  • 2021-06-16
  • 2022-01-14
  • 2021-08-20
相关资源
相似解决方案