Siwei Lai等,2015

背景

使用CNN进行文本分类具有无偏的优点,先在每个小文本段上提取特征,再进入池化层汇总特征,从而区分句子或文本的语义。在提取特征时通常会设置一个固定长度的窗口,词窗长度的设置是一个问题:词窗小,可能会造成关键信息的损失;词窗大,参数空间会变得很大,难以训练。

本文用循环的思想改良CNN特征提取的过程,通过上下文的方式直接在word representation中保存信息,从而避免使用固定的词窗口,完成全监督文本分类任务。

Introduction——

  1. 特征提取feature representation是文本分类的重要问题,常用BoW模型(bigram, n-gram等形式被提取为特征)。

  2. pretrained word embedding can capture meaningful syntactic and semantic regularities.

  3. RNN能够利用上下文语义信息,但模型本身是有偏的,后出现的词汇会比先出现的词汇重要很多,而实际上重要的词汇在任何地方都可能出现。CNN是无偏的模型,从每一个小窗口中获取语义特征,再进入池化层汇总文本的特征。如果用固定窗口,词窗长度的选取就是一个问题。如上。

模型——

定义cl(wi)cr(wi)表示当前词wi的左右上下文,连接左右上下文和当前词的word embedding得到word representation xi.
xi输入卷积层,得到当前词的隐藏语义向量(latent semantic vector)yi
yi=tanh(Wxi+b)
再经过最大池化层和全连接层,得到文本的表示,最后通过输出层(softmax)分类。(全监督)

实验——

  • optimization:SGD
  • initialization: all parameters from a uniform distribution
  • pretrained word embedding: skip-gram in word2vec, on wikipedia dumps
  • 数据集: 内容分类:20ng, fudan, ACL 情感分析:SST
  • 超参数: learning rate 0.01
    -hidden layer size H=100
    vector size of word embedding = 50
    context vector size= 50

论文笔记-recurrent CNN for text classification

RCNN vs. CNN: 在该论文的所有实验数据集上,RCNN比CNN更好
CNNs使用固定的词窗口(window of words), 实验结果受窗口大小影响
RCNNs使用循环结构捕获广泛的上下文信息

相关文章:

  • 2021-12-05
  • 2021-12-04
  • 2021-04-23
  • 2022-01-09
  • 2021-11-28
  • 2021-08-07
  • 2021-10-11
  • 2021-08-13
猜你喜欢
  • 2021-05-24
  • 2021-11-24
  • 2021-07-29
  • 2022-02-25
  • 2021-07-19
相关资源
相似解决方案