论文笔记（NLP）——Sentiment Classification using Document Embeddings trained with Cosine Similarity

1. Abstract

Document embedding将每个文档映射到连续向量空间中一个密集的低维的向量。本文提出了使用余弦相似度（cosine similarity）代替点积（dot product）来训练document embedding。
数据集：IMDB
实验表明：

与dot product相比，使用cosine similarity可以提高准确性；
将naive bayes的n-grams袋的feature combination加权使用可以达到97.42%的准确率。

2. Introduction

本文的重点是对于长电影评论进行二分类（positive和negative），对于文档表示的选择往往比分类器的选择更重要。文本表示旨在将可变长度的文本映射到固定长度的向量，以作为分类器的有效输入。document embedding模型将每一个文档映射成一个密集的实值向量。
本文旨在通过cosine similarity代替dot product训练document embedding改进现有的document embedding模型。例如，给定一篇文章，在预测words/n-grams时最大化cosine similarity而不是dot product。
使用cosine similarity的两个动机：

cosine similarity是一种正则化机制
cosine similarity在相似性度量中广泛使用

3. Proposed Model

本文的模型在PV-DBOW和DV-ngram上进行了改进：

PV-DBOW：段落向量的分布式词袋版本（Distributed Bag of Words version of Paragraph Vector）用来训练预测段落中的单词。
DV-ngram：预测n-grams的文档向量（Document Vector by predicting n-grams），DV-ngram训练段落向量不仅可以预测段落中的word，还可以预测n-gram。

目标函数： $\sum_{d∈D}\sum_{w_o∈W_d}-\log p(w_o|d)$ softmax: $p(w_o|d) =\frac{e^{\alpha\cosθ_{w_o}}}{\sum_{w∈W}e^{\alpha\cosθ_w}}$
学习Document embedding的网络架构：
论文笔记（NLP）——Sentiment Classification using Document Embeddings trained with Cosine Similarity
对于非常大的vocabularies，上述目标函数的更新非常耗时，所以采用Negative Sampling： $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(\alpha\cos\theta_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-\alpha\cos\theta_{w_n})]$
本文将对比cosine similarity、dot product和L2R dot product的效果。
dot product： $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-v_d^Tv_{w_n})]$ L2R dot product: $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})+\frac\lambda2||v_d||^2+\frac\lambda2||v_{w_o}^2||-\sum_{w_n∈W_{neg}}(\log\sigma(-v_d^Tv_{w_n})+\frac\lambda2||v_{w_n}||^2)]$

4. Experiments

实验结果对比：
每个实验都执行了5次取平均
论文笔记（NLP）——Sentiment Classification using Document Embeddings trained with Cosine Similarity
超参数对比：

5. 源码

https://github.com/tanthongtan/dv-cosine