1. Abstract

Document embedding将每个文档映射到连续向量空间中一个密集的低维的向量。本文提出了使用余弦相似度(cosine similarity)代替点积(dot product)来训练document embedding。
数据集:IMDB
实验表明:

  • 与dot product相比,使用cosine similarity可以提高准确性;
  • 将naive bayes的n-grams袋的feature combination加权使用可以达到97.42%的准确率。

2. Introduction

本文的重点是对于长电影评论进行二分类(positive和negative),对于文档表示的选择往往比分类器的选择更重要。文本表示旨在将可变长度的文本映射到固定长度的向量,以作为分类器的有效输入。document embedding模型将每一个文档映射成一个密集的实值向量。
本文旨在通过cosine similarity代替dot product训练document embedding改进现有的document embedding模型。例如,给定一篇文章,在预测words/n-grams时最大化cosine similarity而不是dot product。
使用cosine similarity的两个动机:

  • cosine similarity是一种正则化机制
  • cosine similarity在相似性度量中广泛使用

3. Proposed Model

本文的模型在PV-DBOW和DV-ngram上进行了改进:

  • PV-DBOW:段落向量的分布式词袋版本(Distributed Bag of Words version of Paragraph Vector)用来训练预测段落中的单词。
  • DV-ngram:预测n-grams的文档向量(Document Vector by predicting n-grams),DV-ngram训练段落向量不仅可以预测段落中的word,还可以预测n-gram。

目标函数:dDwoWdlogp(wod)\sum_{d∈D}\sum_{w_o∈W_d}-\log p(w_o|d)softmax:p(wod)=eαcosθwowWeαcosθwp(w_o|d) =\frac{e^{\alpha\cosθ_{w_o}}}{\sum_{w∈W}e^{\alpha\cosθ_w}}
学习Document embedding的网络架构:
论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity
对于非常大的vocabularies,上述目标函数的更新非常耗时,所以采用Negative Sampling:dDwoWd[logσ(αcosθwo)wnWneglogσ(αcosθwn)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(\alpha\cos\theta_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-\alpha\cos\theta_{w_n})]
本文将对比cosine similarity、dot product和L2R dot product的效果。
dot product:dDwoWd[logσ(vdTvwo)wnWneglogσ(vdTvwn)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-v_d^Tv_{w_n})]L2R dot product:dDwoWd[logσ(vdTvwo)+λ2vd2+λ2vwo2wnWneg(logσ(vdTvwn)+λ2vwn2)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})+\frac\lambda2||v_d||^2+\frac\lambda2||v_{w_o}^2||-\sum_{w_n∈W_{neg}}(\log\sigma(-v_d^Tv_{w_n})+\frac\lambda2||v_{w_n}||^2)]

4. Experiments

实验结果对比:
每个实验都执行了5次取平均
论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity
超参数对比:
论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity
论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity
论文笔记(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity

5. 源码

https://github.com/tanthongtan/dv-cosine

相关文章:

  • 2021-09-20
  • 2021-08-31
  • 2021-06-17
  • 2022-12-23
  • 2021-11-14
  • 2021-12-09
  • 2021-04-02
  • 2021-09-17
猜你喜欢
  • 2021-08-07
  • 2021-10-11
  • 2021-12-23
  • 2021-12-24
  • 2022-01-17
  • 2021-05-29
  • 2021-11-28
相关资源
相似解决方案