word2vec的详解 - 爱码网

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。word2vec就是一种对文本中词一种向量编码方式，其重点考虑了上下文之间的联系，比one-hot编码能体现出更多的信息，广泛在自然语言处理中被应用到。

word2vec中包含了跳字模型（skip-gram）,连续词袋模型（continuous bagging of words,CBOW）,欠采样，层序softmax(Hierarchical Softmax)等技术。

其中，跳字模型（skip-gram）和连续词袋模型（continuous bagging of words,CBOW）分别是由上下文预测中间词和由中间词预测上下文词两种方式，如图：
word2vec的详解
欠采样技术是为了减小跳词模型和CBOW模型的计算复杂度进行的近似方法，

层序softmax则巧妙地利用了Huffman编码的方法通过一棵树来进行概率的预测。
word2vec的详解

B站有个视频讲得很清楚：
https://www.bilibili.com/video/BV12W411v7Ga?t=395
这里还有个博客把数学原理讲得很清楚：
https://www.cnblogs.com/peghoty/p/3857839.html