线性结构中的数据元素是一对一的关系,树形结构是一对多的非线性结构,非常类似于自然界中的树,数据元素之间既有分支关系,又有层次关系。树形结构在现实世界中广泛存在,如家族的家谱、一个单位的行政机构组织等都可以用树形结构来形象地表示。树形结构在计算机领域中也有着非常广泛的应用,如 Windows 操作系统中对磁盘文件的管理、编译程序中对源程序的语法结构的表示等都采用树形结构。在数据库系统中,树形结构也是数据的重要组织形式之一。树形结构有树和二叉树两种,树的操作实现比较复杂,但树可以转换为二叉树进行处理,所以,我们主要讨论二叉树。
1.1 树的定义
树(Tree)是 n(n≥0)个相同类型的数据元素的有限集合。树中的数据元素叫结点(Node)。n=0 的树称为空树(Empty Tree);对于 n>0 的任意非空树 T 有:
(1)有且仅有一个特殊的结点称为树的根(Root)结点,根没有前驱结点;
(2)若n>1,则除根结点外,其余结点被分成了m(m>0)个互不相交的集合T 1 ,T 2 ,…,T m ,其中每一个集合T i (1≤i≤m)本身又是一棵树。树T 1 ,T 2 ,…,T m
称为这棵树的子树(Subtree)。
由树的定义可知,树的定义是递归的,用树来定义树。因此,树(以及二叉树)的许多算法都使用了递归。
树的形式定义为:树(Tree)简记为 T,是一个二元组,
T = (D, R)
其中:D 是结点的有限集合;
R 是结点之间关系的有限集合。
图 1.1
从树的定义和上图的示例可以看出,树具有下面两个特点:
(1)树的根结点没有前驱结点,除根结点之外的所有结点有且只有一个前驱结点。
(2)树中的所有结点都可以有零个或多个后继结点。
实际上,第(1)个特点表示的就是树形结构的“一对多关系”中的“一”,第(2)特点表示的是“多”。
由此特点可知,下图 所示的都不是树。
1.2 树的相关术语
1、结点(Node):表示树中的数据元素,由数据项和数据元素之间的关系组成。在图 1.1中,共有 10 个结点。
2、结点的度(Degree of Node):结点所拥有的子树的个数,在图 1.1 中,结点 A 的度为 3。
3、树的度(Degree of Tree):树中各结点度的最大值。在图 1.1 中,树的度为3。
4、叶子结点(Leaf Node):度为 0 的结点,也叫终端结点。在图 1.1 中,结点 E、F、G、H、I、J 都是叶子结点。
5、分支结点(Branch Node):度不为 0 的结点,也叫非终端结点或内部结点。在图 1.1 中,结点 A、B、C、D 是分支结点。
6、孩子(Child):结点子树的根。在图 1.1 中,结点 B、C、D 是结点 A 的孩子。
7、双亲(Parent):结点的上层结点叫该结点的双亲。在图 1.1 中,结点 B、C、D 的双亲是结点 A。
8、祖先(Ancestor):从根到该结点所经分支上的所有结点。在图 1.1 中,结点 E 的祖先是 A 和 B。
9、子孙(Descendant):以某结点为根的子树中的任一结点。在图 1.1 中,除A 之外的所有结点都是 A 的子孙。
10、兄弟(Brother):同一双亲的孩子。在图 1.1 中,结点 B、C、D 互为兄弟。
11、结点的层次(Level of Node):从根结点到树中某结点所经路径上的分支数称为该结点的层次。根结点的层次规定为 1,其余结点的层次等于其双亲结点的层次加 1。
12、堂兄弟(Sibling):同一层的双亲不同的结点。在图 1.1 中,G 和 H 互为堂兄弟。
13、树的深度(Depth of Tree):树中结点的最大层次数。在图 1.1 中,树的深度为 3。
14、无序树(Unordered Tree):树中任意一个结点的各孩子结点之间的次序构成无关紧要的树。通常树指无序树。
15、有序树(Ordered Tree):树中任意一个结点的各孩子结点有严格排列次序的树。二叉树是有序树,因为二叉树中每个孩子结点都确切定义为是该结点的左孩子结点还是右孩子结点。
16、森林(Forest):m(m≥0)棵树的集合。自然界中的树和森林的概念差别很大,但在数据结构中树和森林的概念差别很小。从定义可知,一棵树有根结点和m 个子树构成,若把树的根结点删除,则树变成了包含 m 棵树的森林。当然,根据定义,一棵树也可以称为森林。
1.3 树的逻辑表示
树的逻辑表示方法很多,下面是常见的表示方法。
1、直观表示法
它象日常生活中的树木一样。整个图就象一棵倒立的树,从根结点出发不断扩展,根结点在最上层,叶子结点在最下面,如图 1.1 所示。
2、凹入表示法
每个结点对应一个矩形,所有结点的矩形都右对齐,根结点用最长的矩形表示,同一层的结点的矩形长度相同,层次越高,矩形长度越短,图 1.1 中的树的凹入表示法如下
3、广义表表示法
用广义表的形式表示根结点排在最前面,用一对圆括号把它的子树结点括起来,子树结点用逗号隔开。图 1.1 的树的广义表表示如下:
(A(B(E,F,G),C(H),D(I,J)))
4、嵌套表示法
类似数学中所说的文氏图表示法,如下图 所示。
二:二叉树
2.1 二叉树的定义
二叉树(Binary Tree)是 n(n≥0)个相同类型的结点的有限集合。n=0 的二叉树称为空二叉树(Empty Binary Tree);对于 n>0 的任意非空二叉树有:
(1)有且仅有一个特殊的结点称为二叉树的根(Root)结点,根没有前驱结点;
(2)若n>1,则除根结点外,其余结点被分成了 2 个互不相交的集合T L ,T R ,而T L 、T R 本身又是一棵二叉树,分别称为这棵二叉树的左子树(Left Subtree)和右子树(Right Subtree)。
二叉树的形式定义为:二叉树(Binary Tree)简记为 BT,是一个二元组,
BT = (D, R)
其中:D 是结点的有限集合;
R 是结点之间关系的有限集合。
由树的定义可知,二叉树是另外一种树形结构,并且是有序树,它的左子树和右子树有严格的次序,若将其左、右子树颠倒,就成为另外一棵不同的二叉树。因此,图 (a)和图 (b)所示是不同的二叉树。
二叉树的形态共有 5 种:空二叉树、只有根结点的二叉树、右子树为空的二叉树、左子树为空的二叉树和左、右子树非空的二叉树。二叉树的 5 种形态如下图所示。
三种特殊的二叉树:
(1)完美二叉树(Perfect Binary Tree):Every node except the leaf nodes have two children and every level (last level too) is completely filled. 除了叶子结点之外的每一个结点都有两个孩子,每一层(当然包含最后一层)都被完全填充。
(2)完全二叉树(Complete Binary Tree):Every level except the last level is completely filled and all the nodes are left justified. 除了最后一层之外的其他每一层都被完全填充,并且所有结点都保持向左对齐。
(若设二叉树的深度为h,除第 h 层外,其它各层 (1~h-1) 的结点数都达到最大个数,第 h 层所有的结点都连续集中在最左边,这就是完全二叉树。【来源百度百科】)
这是一种有些难以理解的特殊二叉树,首先从字面上要区分,“完全”和“满”的差异,满二叉树一定是一棵完全二叉树,但完全二叉树不一定是满的。
(3)完满二叉树(Full Binary Tree):Every node except the leaf nodes have two children. 除了叶子结点之外的每一个结点都有两个孩子结点。
完满(Full)二叉树 v.s. 完全(Complete)二叉树 v.s. 完美(Perfect)二叉树
2.2 二叉树的特性
性质 1 :版本一:若二叉树的层次从0开始,则在二叉树的第i层至多有2^i个结点(i>=0)。【Thomas和Charles等人写的《算法导论》和 Robert Sedgewick所著的《算法》从 level 0 开始定义】
版本二:若二叉树的层次从1开始,则在二叉树的第i层至多有2^(i-1)个结点(i>=1)。【严蔚敏老师的《数据结构》则是从level 1开始定义的】
性质 2: 若规定空树的深度为 0,则深度为k的二叉树最多有 2^k -1 个结点(满二叉树)(k≥0)。
性质 3 :具有n个结点的完全二叉树的深度k为log 2 n+1。
性质 4: 对于一棵非空二叉树,如果叶子结点(度为0)数目为m ,度为 2 的结点数目为n,则有m= n +1。
性质 5: 对于具有 n 个结点的完全二叉树,如果按照从上到下和从左到右的顺序对所有结点从 1 开始编号,则对于序号为 i 的结点,有:
(1)如果 i>1,则序号为 i 的结点的双亲结点的序号为 i/2(“/”表示整除);如果 i=1,则该结点是根结点,无双亲结点。
(2)如果 2i≤n,则该结点的左孩子结点的序号为 2i;若 2i>n,则该结点无左孩子。
(3)如果 2i+1≤n,则该结点的右孩子结点的序号为 2i+1;若 2i+1>n,则该结点无右孩子
2.3 二叉树的存储结构
二叉树的存储结构主要有三种:顺序存储结构、二叉链表存储结构和三叉链表存储结构。
2.3.1:二叉树的顺序存储结构
对于一棵完全二叉树,由性质 5 可计算得到任意结点 i 的双亲结点序号、左孩子结点序号和右孩子结点序号。所以,完全二叉树的结点可按从上到下和从左到右的顺序存储在一维数组中,其结点间的关系可由性质 5 计算得到,这就是二叉树的顺序存储结构。图 (a)所示的二叉树的顺序存储结构为:
但是,对于一棵非完全二叉树,不能简单地按照从上到下和从左到右的顺序存放在一维数组中,因为数组下标之间的关系不能反映二叉树中结点之间的逻辑关系。所以,应该对一棵非完全二叉树进行改造,增加空结点(并不存在的结点)使之成为一棵完全二叉树,然后顺序存储在一维数组中。图 (b)是图 (a)的顺序存储示意图
显然,顺序存储对于需增加很多空结点才能改造为一棵完全二叉树的二叉树不适合,因为会造成空间的大量浪费。实际上,采用顺序存储结构,是对非线性的数据结构线性化,用线性结构来表示二叉树的结点之间的逻辑关系,所以,需要增加空间。一般来说,有大约一半的空间被浪费。最差的情况是右单支树,如下图 所示,一棵深度为k的右单支树,只有k个结点,却需要分配 2 k -1 个存储单元。
2.3.2:二叉树的二叉链表存储结构
二叉树的二叉链表存储结构是指二叉树的结点有三个域:一个数据域和两个引用域,数据域存储数据,两个引用域分别存放其左、右孩子结点的地址。当左孩子或右孩子不存在时,相应域为空,用符号 NULL 或∧表示。结点的存储结构如下所示:
下图是图2.3.1(a)所示的二叉树的二叉链表示意图。图 (a)是不带头结点的二叉链表,图 (b)是带头结点的二叉链表。
由上图所示的二叉树有 4 个结点,每个结点中有两个引用,共有 8 个引用,其中 3 个引用被使用,5 个引用是空的。由性质 4 可知:由 n 个结点构成的二叉链表中,只有 n-1 个引用域被使用,还有 n+1 个引用域是空的。
2.3.3:二叉树的三叉链表存储结构
使用二叉链表,可以非常方便地访问一个结点的子孙结点,但要访问祖先结点非常困难。可以考虑在每个结点中再增加一个引用域存放其双亲结点的地址信息,这样就可以通过该引用域非常方便地访问其祖先结点。这就是下面要介绍的三叉链表。
二叉树的三叉链表存储结构是指二叉树的结点有四个域:一个数据域和三个引用域,数据域存储数据,三个引用域分别存放其左、右孩子结点和双亲结点的地址。当左、右孩子或双亲结点不存在时,相应域为空,用符号 NULL 或∧表示。结点的存储结构如下所示:
下图 (a)是不带头结点的三叉链表,图 (b)是带头结点的三叉链表。
2.4 二叉链表存储结构的类实现
二叉树的二叉链表的结点类有 3 个成员字段:数据域字段 data、左孩子引用域字段 lChild 和右孩子引用域字段 rChild。二叉树的二叉链表的结点类的实现如下所示。
1 public class Node<T> 2 { 3 public T Data { get; set; } 4 public Node<T> LChild { get; set; } 5 public Node<T> RChild { get; set; } 6 7 public Node(T data, Node<T> lp, Node<T> rp) 8 { 9 Data = data; 10 LChild = lp; 11 RChild = rp; 12 } 13 14 public Node(Node<T> lp, Node<T> rp) 15 { 16 Data = default(T); 17 LChild = lp; 18 RChild = rp; 19 } 20 21 public Node(T data) 22 { 23 Data = data; 24 LChild = null; 25 RChild = null; 26 } 27 28 public Node() 29 { 30 Data = default(T); 31 LChild = null; 32 RChild = null; 33 } 34 }