语言模型演化
1.N-Gram
- 概率语言模型
- 需要做平滑处理,因为语料不能覆盖所有情况,否则概率都为0,无法生成句子(数据稀疏问题)
2.基于NN(神经网络)
- 与N-Gram模型很像
- 是矩阵因子分解(Matrix Factorization)的进化
- 相比N-Gram减少了参数量
3.基于RNN(循环神经网络)
- 可以依赖更长的信息
- 减少了参数量
4.Class-based Language Modeling
- 基于词类建立语言模型,以缓解数据稀疏问题
- 可以方便融合部分语法信息。
- 使用word embedding再聚类方式获得此类
- N-Gram的优化