1.前言
理解一个句子有两种方法:
- 句法分析(要分析主谓宾,应试教育的套路)
- 凭感觉,(书读百遍,其义自现),本质是基于语言模型的方法
我们的重点是句法分析:也就是找到句子的主谓宾
2.语法树
S:一句话的开始
N:名词
V:动词
P:phase短语(与其他单词合并着用)
NP:名词短语
VP:动词短语
PP:介词短语
P:介词(可单独使用)
单词所在的节点是叶节点,非叶节点也叫内部节点
3.句法分析的应用
- 句法特征提取
特别是针对于短文本,特征能提取的较少的情况下效果较好
4.语法
图中列出的是生成句法树的语法规则,没有它是无法生成句法树的
语法规则一般是给定的
可以看到 S只能分裂成 NP 和 VP,一旦生成叶节点的单词,整个句子就生成完毕了
这个语法规则是由语言学专家去制定的
有了这个规则,很容易写出一颗语法树。如
S --> NP, VP
NP --> NP, NP(也可以分裂成NP–>NP, PP, 我们选择前一种)
VP --> V, NP
NP --> N
NP --> N
NP --> N
即下图
5.带概率的语法(PCFG)
上面的概率是通过统计的方法来计算的,我们要统计每种语法规则出现的概率
首先:我们有训练数据集,其中每个句子已经标记好成了句法树,这个方法需要大量的人工标注
6.评估句法树
我们要知道一个句子可以表示成多种句法树的,那么哪棵树最好呢??,计算score,如图
7 寻找最好的树
- 枚举所有可能的树
- CKY算法
枚举法就是上面提到的方法,需要评价每棵树的score,时间复杂度很高
CKY算法的核心是:动态规划
CKY算法太复杂,这里就不说了^^