在自然语言处理中,经常会遇到要计算单词或者句子在词典或文档中出现的频次,但是会存在某个单词在词典中没有出现的情况,计算时概率为0,为了改善这种情况,人们提出的平滑方法。

1、Add-one Smoothing(Laplace Smoothing)

2、Add-k Smoothing

3、Interpolation

4、Good-Turning Smoothing

Bigram为例。

在计算某个单词在语料库中的Bigram时,其计算公式为:

平滑方法

MLE为最大似然估计

使用Add-one Smoothing后,计算公式为:

平滑方法

V为词典库的大小。 

使用Add-k Smoothing后,计算公式为:

平滑方法

而使用Interpolation方法。核心思路是在计算Trigram概率的同时考虑Unigram,Bigram,Trigram出现的频次。

计算公式为:

平滑方法 

对于Good Turning Smoothing

平滑方法   出现C次的单词的个数

对于没有出现过的单词,平滑方法 = 0,使用GT公式:平滑方法 平滑方法/平滑方法,N1为出现1次的单词个数,N为单词的总个数。

对于出现过的单词 ,平滑方法 ,使用GT公式:平滑方法平滑方法

 

 

 

 

相关文章:

  • 2021-12-05
  • 2021-06-09
  • 2022-01-15
  • 2021-09-29
  • 2022-02-23
猜你喜欢
  • 2021-05-03
  • 2022-12-23
  • 2022-01-28
  • 2022-12-23
  • 2022-12-23
  • 2022-02-17
  • 2021-12-03
相关资源
相似解决方案