一.语义分析概述
1.语义分析的任务
1)审查每一个语法结构的静态语义,即验证语法正确的结构是否有意义。
如:赋值语句:x:=x+y,左边变量类型与右边变量类型是否一致。
2)在语义正确的基础上生成一种中间代码或目标代码。
2.语义分析的范围
1)确定类型:确定标识符所关联的数据类型。
2)类型检查:按语言的类型规则,检查运算的合法性与运算分量类型的一致性,必要时作类型转换。
3)识别含义:根据语言的语义定义(形式或非形式),识别程序中各构造成分组合到一起的含义,并作相应的语义处理(生成中间代码或目标代码)。
4.控制流检查:控制流语句必须转移到合法的地方。如C中,break语句规定跳出最内层的循环或switch语句。
5.一致性检查:在很多场合要求对象只能被说明一次。如:pascal语言规定同一个标识符在一个分程序中只能被说明一次等。
6.相关名字检查:如:Ada,循环或块可以有一个名字,它出现在这些结构的开头或结尾。编译程序必须检查这两个地方用的名字是否相同。
其它:如名字的作用域分析等也是语义分析的工作。
3.语义描述工具和语义分析方法
1)语义描述工具
目前流行:用属性文法作为描述语义的工具。
2)语义分析方法
根据描述属性文法的语义规则的方式不同分为:
语法制导定义
翻译方案
3)自底向上的语法制导翻译
自顶向下的语法制导翻译
二.几种常用的中间语言形式
1.逆波兰表示法
波兰表示是一种既不须考虑优先关系、又不用括号的一种表示表达式的方法(前缀式)。
现在我们要介绍的刚好是另一种波兰表示形式,称为后缀式,即运算符在后。
2.图表示法
抽象语法树。
无循环有向图(DAG)
DAG与抽象语法树基本上一样,对表达式中的每个子表达式,DAG中都有一个结点。一个内部结点表示一个操作符,它的孩子表示操作数。
两者所不同的是,在一个DAG中代表公共子表达式的结点具有多个父结点,而在一棵抽象语法树中公共子表达式被表示为重复的子树。
3.三元式
1)三元式由三个部分组成:
算符:OP
第一运算分量:ARG1
第二运算分量:ARG2
4.间接三元式
在三元式的基础上附加一张指示器表─间接码表,按运算的先后顺序列出有关三元式在三元式表中的位置。这种表示方法称为间接三元式。
例: 语句X:=(A+B)*C; Y:=D↑(A+B)的间接三元式
5.四元式
一个四元式是一个带有四个域的记录结构:op,arg1,arg2及result。它实际上就是一条三地址的指令。
例:A+B*(C-D)-E/F↑G的四元式为:
OP ARG1 ARG2 RESULT
① - C D T1
② * B T1 T2
③ + A T2 T3
④ ↑ F G T4
⑤ / E T4 T5
⑥ - T3 T5 T6
三.中间代码
1.中间语言:语法树 后缀式 三地址代码表示
(1)图表示法
语法树,有向非循环图和后缀式表示源程序的自然层次结构
(2)三地址代码
一般形式 x:=y op z
(3)三地址语句的种类
1)赋值语句 x:=y op z,op为二目算术算符或逻辑算符;
2)赋值语句 x:=op y ,op为一目算符,如一目减uminus、逻辑非not、移位算符及转换算符;
3)无条件转移语句goto L;
4)条件转移语句 if x relop y goto L,关系运算符号relop(< ,=,>= 等等);
5)复制语句 x:=y;
6)过程调用语句 param x 和 call p, n ;
7)索引赋值 x:=y[i] 及 x[i] :=y ;
8)地址和指针赋值 x=&y,x=* y和 * x=y。
(4)语法制导翻译生成三地址代码
1)E.place表示存放E值的名字。
2)E.code表示对E求值的三地址语句序列
3)newtemp是个函数,对它的调用将产生 一个新的临时变量。
(5)三地址代码的具体实现
1)四元式 op, arg1, arg2, result
三元式 op, arg1, arg2
四元式需要利用较多的临时单元,四元式之 间 的联系通过临时变量实现。
中间代码优化处理时,四元式比三元式方便的多,间接三元式与四元式同样方便,两种实现方式需要的存储空间大体相同。
四.常用语句的翻译
1 .说明语句
说明语句的翻译对应每个局部的名字,在符号表中建立相应的表项,填写有关的信息如类型、嵌套深度、相对地址,内情向量等。2. 赋值语句
赋值语句的翻译:表达式的成分可以是整型量、实型量、数组 元素和记录
1)符号表中的名字
名字可以理解为指向符号表中相应该名字表项的指针
2)简单算术表达式及赋值语句
3)数组元素地址分配(复杂赋值语句)
数组元素地址的计算公式
①一维数组的数组元素计算公式:bace-low*w + i*w
②对于一个二维数组,可以按行或按列存放: base-((low1 *n2)+low2)*w+ ((i1*n2)+i2)* w
③多维数组A[i1,i2,...,ik] 的地址的计算:a[i1,i2,…in]的地址=base-c+v
c=((...((low1*n2+low2)*n3+low3)...)*nk+lowk) * w
变量部分v= ((...((i1*n2+i2)*n3+i3...)*nk+ik)*w
3. 布尔表达式 :用布尔运算符号(and,or,not)作用到布尔变量或关系表达式上而组成
布尔表达式的作用:
1. 用作计算逻辑值
2. 用作控制流语句如if-then,if-then-else和while-do等之中的条件表达式
(1)翻译布尔表达式的方法
1)表示一个布尔表达式的值
方法一:用数值表示真和假,从而对布尔表达式的求值可以象对算术表达式的求值那样一步一步地来计算
方法二:另一种方法是根据布尔表达式的特点,采用了某种优化措施。
2)数值表示法
用1表示真,0表示假来实现布尔表达式的翻译
3)布尔表达式的数值表示法的翻译模式
emit用于将一个三地址语句输送到文件中
Nextquat是一个计数器,指向下一个三地址语句在输出序列中的索引序号,也就是即将生成的三地址语句序号。
(4)控制流语句中的布尔表达式的翻译
对于出现在条件语句 if E then s1 else s2中的布尔表达式E,其作用就是控制对S1和S2的选择
因此,作为条件的布尔表达式,把它设计成两个出口:E.true 和 E.false
考虑E的上下文,对于IF语句,E.true 指向S1, E.false指向S2;
对于while语句E.true 指向循环的开始, E.false指向while 的下一语句
4.过程调用
一个过程调用的翻译包括一个调用序列,即进入和离开每一个过程所采取的动作序列。
发生一个过程调用时:为被调用过程传递连接数据
①把实在参数的信息传递到被调用过程的可取的指定位置;
②建立环境指针以便被调用过程能存取非局部过程的数据;
③保留调用过程的运行状态;
④返回地址应存入指定的单元中;
⑤应生成一条转移指令转移到被调用过程的代码的开始位置。
从过程返回时:
①如果被调用过程是一个函数,则需将返回的结果值存放在一个指定的位置 上;
②调用过程的活动记录需要恢复;
③应生成一条转移指令转移到调用过程的返回地址;
五.知识应用
六.总结
本章理解起来较为简单。主要是逆波兰式,三元式,间接三元式,四元式序列,还有语法树,DAG图。重点是中间代码这部分。其中主要是“翻译”,通过判断语句在之后三元式地址码,最后翻译出结果。