NLP ——Skip-gram 和 CBOW

one-hot
隐藏层没有**函数
词向量的维度一般情况下要远远小于词语总数的大小（降维操作）
用技巧来加速训练：
- Hierarchical softmax
  本质是把 N 分类问题变成 log(N)次二分类
- negative sampling
  本质是预测总体类别的一个子集
其实在真正应用的时候，只需要调用 Gensim （一个 Python 第三方库）的接口就可以。但对理论的探究仍然有必要，你能更好地知道参数的意义、模型结果受哪些因素影响，以及举一反三地应用到其他问题当中，甚至更改源码以实现自己定制化的需求。
资料：
Skip-gram
用一个词语作为输入，来预测它周围的上下文
CBOW
一个词语的上下文作为输入，来预测这个词语本身