Word2Vec

背景知识

语言模型
词表示

对比模型

NNLM
RNNLM

模型结构

skip-gram模型
CBOW模型

关键技术

Hierarchical Softmax (层次Softmax)
负采样（Negative Sampling）

模型复杂度分析
代码实现

背景知识

Word2Vec是一种词向量的表示方式，是在论文《Efficient Estimation of Word Representations in
Vector Space》中提出，有两种网络模型来训练（Skip-gram和CBOW模型）。由Word2Vec训练出来的词向量可以提升下游任务的性能、效果。

语言模型

语言模型是计算一个句子是句子的概率模型，即判断该句子是否合乎语义和语法。语言模型的建立方法有：基于专家语法规则的语言模型、统计语言模型、神经网络语言模型。
**基于专家语法规则的语言模型：**是由语言学专家设置一套规则而形成的语言模型，例如主谓宾结构的。
**统计语言模型：**基于统计概率的语言模型，即判断这个句子形成的概率。P(S)是句子的概率，P（W_i）是每个单词的概率。
$P{\left({S}\right)}=P{\left({W_1,W_2,...,W_n}\right)}=P{\left({W_1}\right)}P{\left( {W_2\left|W_1\right. }\right)}P{\left( {W_3\left|W_1W_2\right. }\right)}...P{\left( {W_n\left|W_1W_2W_3...W_n-1\right. }\right)}$
每个单词的概率是基于一定文档（语料）来求取的，即有一定数量的文档，统计每个单词在所有文档中出现的次数，再除以所有单词的总数，进而求得该单词的频率，用频率代替概率。
$P{\left({W_i}\right)}=P{\left({count(W_i)}\right)}/N$
统计语言模型中的平滑操作： 由于基于一定数量的文档而形成的词典并不能囊括世界上所有的单词，再者由于新词的产生，一定会出现一些词或词组是在语料中没有出现的，但是在现实中这种词或词组是真实存在的。为解决这一问题，可使用平滑操作，即对所有词初始状态就有一个很小的概率。方法：Laplace Smoothing（加1平滑），即每个词在原先出现次数的基础上加1.
马尔可夫假设： 即下一个词的出现仅仅依赖于前面的一个词或几个词。基于该假设有经典的语言模型：N-gram模型。常见的N-gram模型有：1-gram、2-gram、3-gram模型。下一个词的出现依赖于前N-1个单词。
语言模型的评价指标：困惑度
$P{\left({S}\right)}=P{\left({W_1,W_2,...,W_n}\right)}=P{\left({W_1}\right)}P{\left( {W_2\left|W_1\right. }\right)}P{\left( {W_3\left|W_1W_2\right. }\right)}...P{\left( {W_n\left|W_1W_2W_3...W_n-1\right. }\right)}$
困惑度：
$PP(S)=P{\left({W_1,W_2,...,W_n}\right)}^{-1/n}$
句子概率越大，语言模型越号，困惑度越小。