N元语法模型(语言模型)
目录
Laplace Smoothing(Add-one Smoothing)
简单的(非平滑)N元语法模型
马尔可夫假设
unigram/bigram/trigram
Noisy Channel Model https://www.cnblogs.com/hapjin/p/8012069.html
语言模型的评测方法
外部评测
通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、不够客观且耗时
内部评测
困惑度(preplexity)
平滑方法
对于各类平滑方法总结比较好的一篇文章
https://blog.csdn.net/baimafujinji/article/details/51297802
Laplace Smoothing(Add-one Smoothing)
Add-K Smoothing
K该如何选择?
1.穷举K
2.以优化的角度来找到K值
Interpolation(插值法)
Good-Turing Smoothing
本方法的实质就是利用出现次数为一次的元素的频率个数作为零计数的一元语法的频率来估计概率大小。
我们先定义出现次数为c次的单词的个数记为
的最大似然估计MLE的计数为c,Good-Turing利用出现次数为c+1的事物的概率来估计该语料库中出现次数为c次的事物的概率,记为c*
具体例子:
缺点
估计c*时要依赖于,但
有时无法求出,可能为0.
解决办法为simple Good-Turing,利用线性回归来计算(具体见自然语言处理总论4.5.3)
Katz回退法(Katz Backoff)
Kneser-Ney Smoothing