一 word2vec现有三种模型框架:
eg求大家 喜欢 吃 (苹果)的概率
(1)计算后验概率:
p(大家)表示“大家”这个词在语料库里面出现的概率;
p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;
p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;
p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
(2)所以,最终P(大家,喜欢,吃,苹果)为:
P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)
2 CBOW(bag of word)词袋:1one_hot编码(统计每个词频率,编号大频序号小),2向量化(维度M),3预测求和softmax,目标函数是预测结果和真实结果的交叉熵。
网络结构图如下所示: