1. Abstract
Document embedding将每个文档映射到连续向量空间中一个密集的低维的向量。本文提出了使用余弦相似度(cosine similarity)代替点积(dot product)来训练document embedding。
数据集:IMDB
实验表明:
- 与dot product相比,使用cosine similarity可以提高准确性;
- 将naive bayes的n-grams袋的feature combination加权使用可以达到97.42%的准确率。
2. Introduction
本文的重点是对于长电影评论进行二分类(positive和negative),对于文档表示的选择往往比分类器的选择更重要。文本表示旨在将可变长度的文本映射到固定长度的向量,以作为分类器的有效输入。document embedding模型将每一个文档映射成一个密集的实值向量。
本文旨在通过cosine similarity代替dot product训练document embedding改进现有的document embedding模型。例如,给定一篇文章,在预测words/n-grams时最大化cosine similarity而不是dot product。
使用cosine similarity的两个动机:
- cosine similarity是一种正则化机制
- cosine similarity在相似性度量中广泛使用
3. Proposed Model
本文的模型在PV-DBOW和DV-ngram上进行了改进:
- PV-DBOW:段落向量的分布式词袋版本(Distributed Bag of Words version of Paragraph Vector)用来训练预测段落中的单词。
- DV-ngram:预测n-grams的文档向量(Document Vector by predicting n-grams),DV-ngram训练段落向量不仅可以预测段落中的word,还可以预测n-gram。
目标函数:softmax:
学习Document embedding的网络架构:
对于非常大的vocabularies,上述目标函数的更新非常耗时,所以采用Negative Sampling:
本文将对比cosine similarity、dot product和L2R dot product的效果。
dot product:L2R dot product:
4. Experiments
实验结果对比:
每个实验都执行了5次取平均
超参数对比:
5. 源码
https://github.com/tanthongtan/dv-cosine