word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。word2vec就是一种对文本中词一种向量编码方式,其重点考虑了上下文之间的联系,比one-hot编码能体现出更多的信息,广泛在自然语言处理中被应用到。

word2vec中包含了跳字模型(skip-gram),连续词袋模型(continuous bagging of words,CBOW),欠采样,层序softmax(Hierarchical Softmax)等技术。

其中,跳字模型(skip-gram)和连续词袋模型(continuous bagging of words,CBOW)分别是由上下文预测中间词和由中间词预测上下文词两种方式,如图:
word2vec的详解
欠采样技术是为了减小跳词模型和CBOW模型的计算复杂度进行的近似方法,
word2vec的详解
word2vec的详解

层序softmax则巧妙地利用了Huffman编码的方法通过一棵树来进行概率的预测。
word2vec的详解
word2vec的详解

B站有个视频讲得很清楚:
https://www.bilibili.com/video/BV12W411v7Ga?t=395
这里还有个博客把数学原理讲得很清楚:
https://www.cnblogs.com/peghoty/p/3857839.html

相关文章:

  • 2022-12-23
  • 2021-09-02
  • 2021-05-13
  • 2021-04-10
  • 2021-09-04
  • 2021-05-31
猜你喜欢
  • 2021-10-24
  • 2022-02-20
  • 2021-05-12
  • 2021-06-29
  • 2021-09-06
相关资源
相似解决方案