关于算法原理参考: 下面是 Relation with skip gram skip gram: 接下来在整个corPus 中训练: 但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j,采用近似 但对于两分布中的交叉熵损失是有弊端的:即低概率高权值 并且上式中的Qi,jQ_{i,j}Qi,j还是难以normalized,因此 不归一化带来的问题是Qhat,PhatQ_{hat},P_{hat}Qhat,Phat很大,故采用以下对数形式 还是无法优化,因此,不再使用context word (Xi,jX_{i,j}Xi,j)作为权重,改用f(Xij)f(X_{ij})f(Xij) 相关文章: