论文笔记-recurrent CNN for text classification

Siwei Lai等，2015

背景：

使用CNN进行文本分类具有无偏的优点，先在每个小文本段上提取特征，再进入池化层汇总特征，从而区分句子或文本的语义。在提取特征时通常会设置一个固定长度的窗口，词窗长度的设置是一个问题：词窗小，可能会造成关键信息的损失；词窗大，参数空间会变得很大，难以训练。

本文用循环的思想改良CNN特征提取的过程，通过上下文的方式直接在word representation中保存信息，从而避免使用固定的词窗口，完成全监督文本分类任务。

Introduction——

特征提取feature representation是文本分类的重要问题，常用BoW模型（bigram, n-gram等形式被提取为特征）。
pretrained word embedding can capture meaningful syntactic and semantic regularities.
RNN能够利用上下文语义信息，但模型本身是有偏的，后出现的词汇会比先出现的词汇重要很多，而实际上重要的词汇在任何地方都可能出现。CNN是无偏的模型，从每一个小窗口中获取语义特征，再进入池化层汇总文本的特征。如果用固定窗口，词窗长度的选取就是一个问题。如上。

模型——

定义 $c_{l} (w_{i})$ 和 $c_{r} (w_{i})$ 表示当前词 $w_{i}$ 的左右上下文，连接左右上下文和当前词的word embedding得到word representation $x_{i}$ .
将 $x_{i}$ 输入卷积层，得到当前词的隐藏语义向量（latent semantic vector） $y_{i}$ ，
$y_{i} = t a n h (W x_{i} + b)$ 。
再经过最大池化层和全连接层，得到文本的表示，最后通过输出层(softmax)分类。（全监督）

实验——

optimization:SGD
initialization: all parameters from a uniform distribution
pretrained word embedding: skip-gram in word2vec, on wikipedia dumps
数据集：内容分类：20ng, fudan, ACL 情感分析：SST
超参数： learning rate 0.01
-hidden layer size H=100
vector size of word embedding = 50
context vector size= 50

论文笔记-recurrent CNN for text classification

RCNN vs. CNN: 在该论文的所有实验数据集上，RCNN比CNN更好
CNNs使用固定的词窗口(window of words), 实验结果受窗口大小影响
RCNNs使用循环结构捕获广泛的上下文信息