Siwei Lai等,2015
背景:
使用CNN进行文本分类具有无偏的优点,先在每个小文本段上提取特征,再进入池化层汇总特征,从而区分句子或文本的语义。在提取特征时通常会设置一个固定长度的窗口,词窗长度的设置是一个问题:词窗小,可能会造成关键信息的损失;词窗大,参数空间会变得很大,难以训练。
本文用循环的思想改良CNN特征提取的过程,通过上下文的方式直接在word representation中保存信息,从而避免使用固定的词窗口,完成全监督文本分类任务。
Introduction——
特征提取feature representation是文本分类的重要问题,常用BoW模型(bigram, n-gram等形式被提取为特征)。
pretrained word embedding can capture meaningful syntactic and semantic regularities.
RNN能够利用上下文语义信息,但模型本身是有偏的,后出现的词汇会比先出现的词汇重要很多,而实际上重要的词汇在任何地方都可能出现。CNN是无偏的模型,从每一个小窗口中获取语义特征,再进入池化层汇总文本的特征。如果用固定窗口,词窗长度的选取就是一个问题。如上。
模型——
定义和表示当前词的左右上下文,连接左右上下文和当前词的word embedding得到word representation .
将输入卷积层,得到当前词的隐藏语义向量(latent semantic vector),
。
再经过最大池化层和全连接层,得到文本的表示,最后通过输出层(softmax)分类。(全监督)
实验——
- optimization:SGD
- initialization: all parameters from a uniform distribution
- pretrained word embedding: skip-gram in word2vec, on wikipedia dumps
- 数据集: 内容分类:20ng, fudan, ACL 情感分析:SST
- 超参数: learning rate 0.01
-hidden layer size H=100
vector size of word embedding = 50
context vector size= 50
RCNN vs. CNN: 在该论文的所有实验数据集上,RCNN比CNN更好
CNNs使用固定的词窗口(window of words), 实验结果受窗口大小影响
RCNNs使用循环结构捕获广泛的上下文信息