数据库设计
逻辑结构设计
概念结构是独立于任何一种数据模型的信息结构,逻辑结构设计的任务就是把概念结构设计阶段设计好的基本 E-R 图转换为与选用数据库管理系统产品所支持的数据模型相符合的逻辑结构。
逻辑结构设计的一般步骤:1)、将概念结构转化为一般的关系、网状、层次模型。2)、将转化来的关系、网状、层次模型向特定DBMS支持下的数据模型转换。3)、对数据模型进行优化。
1)、E-R 图向关系模型的转换
E-R 图由实体型、实体的属性和实体型之间的联系三个要素组成。 关系模型的逻辑结构是一组关系模式的集合。 将E-R图转换为关系模型即将实体型、实体的属性和实体型之间的联系转化为关系模式。
转换原则:一个实体型转换为一个关系模式。 关系的属性即实体的属性 ,关系的码即实体的码 。
实体型间的联系有以下不同情况: 1)、1 : 1 联系;2)、1 : m 联系 ;3)、m : n 联系 。
一个1:1联系可以转换为一个独立的关系模式,也可以与任意一端对应的关系模式合并。 转换为一个独立的关系模式 :关系的属性:与该联系相连的各实体的码以及联系本身的属性;关系的候选码:每个实体的码均是该关系的候选码。 与某一端实体对应的关系模式合并 :合并后关系的属性:加入对应关系的码和联系本身的属性;合并后关系的码:不变。例如:院系和正院长之间是1:1联系,其联系可以转换为以下三种形式:1)、院系(院系编号,院系名称,院系地址,…),院长(院长工号,姓名,性别…..),院系-院长(院系编号,院长工号,任期);2)、院系(院系编号,院系名称,院系地址,…),院长(院长工号,院系编号,任期,姓名,性别…..);3)、院系(院系编号,院系名称,院系地址,院长工号,…),院长(院长工号,任期,姓名,性别…..) 。
需要注意:从理论上讲,1:1 联系可以与任意一端对应的关系模式合并,但在一些情况下,与不同的关系模式合并效率会大不一样。因此究竟应该与哪端的关系模式合并需要依应用的具体情况而定。由于连接操作是最费时的操作,所以一般应以尽量减少连接操作为目标。例如,如果经常要查询某个学院的院长姓名,则将该联系与院长关系合并更好些。
一个1:n联系可以转换为一个独立的关系模式,也可以与n端对应的关系模式合并。 转换为一个独立的关系模式 :关系的属性:与该联系相连的各实体的码以及联系本身的属性;关系的码:n端实体的码。 与n端对应的关系模式合并 :合并后关系的属性:在n端关系中加入1端关系的码和联系本身的属性。;合并后关系的码:不变;可以减少系统中的关系个数,一般情况下更倾向于采用这种方法。例如:班级和学生之间是 1:n 的联系,有以下两种转换:1)、使其成为一个独立的关系模式:班级(班级号,班级名称,…),学生(学号,姓名,性别,….),学生-班级(学号,班级号);2)、将其学生关系模式合并:班级(班级号,班级名称,… ),学生(学号,班级号,姓名,性别,…. )。
一个m:n联系转换为一个关系模式 :关系的属性:与该联系相连的各实体的码以及联系本身的属性;关系的码:各实体码的组合。例如 “选修” 联系是一个m:n联系,可以将它转换为如下关系模式,其中学号与课程号为关系的组合码: 学生(学号,姓名,…),课程(课号,课程名,…),选修(学号,课程号,成绩)。
三个或三个以上实体间的一个多元联系转换为一个关系模式:关系的属性:与该多元联系相连的各实体的码以及联系本身的属性;关系的码:各实体码的组合。例如:“讲授” 联系是一个三元联系,可以将它转换为如下关系模式,其中课程号、职工号和书号为关系的组合码:讲授(课程号,职工号,书号)。
同一实体集的实体间的联系,即自联系,也可按上述1:1、1:n和m:n三种情况分别处理。例如:如果教师实体集内部存在领导与被领导的1:n自联系,可以将该联系与教师实体合并,这时主码职工号将多次出现,但作用不同,可用不同的属性名加以区分:教师:{职工号,姓名,性别,职称,系主任}。
具有相同码的关系模式可合并,目的是减少系统中的关系个数。 合并方法: 将其中一个关系模式的全部属性加入到另一个关系模式中,然后去掉其中的同义属性(可能同名也可能不同名),再适当调整属性的次序。例如:学生“所属”关系模式:所属(学号,所在系,年级,班级号);学生关系模式:学生(学号,姓名,性别,出生日期)。上面两个关系模式都以学号为码,可以将它们合并为一个关系模式:学生(学号,姓名,性别,出生日期,所在系,年级,班级号)
2)、数据模型的优化
数据库逻辑设计的结果不是唯一的,在得到初步数据模型后,还应该适当地修改、调整数据模型的结构,以进一步提高数据库应用系统的性能,这就是数据模型的优化。 关系数据模型的优化通常以规范化理论为指导。其方法为:
1)、确定数据依赖:按需求分析阶段所得到的语义,分别写出每个关系模式内部各属性之间的数据依赖以及不同关系模式属性之间数据依赖。2)、对于各个关系模式之间的数据依赖进行极小化处理,消除冗余的联系。3)、按照数据依赖的理论对关系模式进行分析,考察是否存在部分函数依赖、传递函数依赖、多值依赖等,确定各关系模式分别属于第几范式。(例如,经分析可知,课程关系模式属于BC范式)。4)、按照需求分析阶段得到的各种应用对数据处理的要求,分析对于这样的应用环境这些模式是否合适,确定是否要对它们进行合并或分解。这里需要注意的是:并不是规范化程度越高的关系就越优。当查询经常涉及两个或多个关系模式的属性时,系统必须经常地进行连接运算,连接运算的代价是相当高的,可以说关系模型低效的主要原因就是做联接运算引起的。因此在这种情况下,第二范式甚至第一范式也许是适合的。非BCNF的关系模式虽然会存在不同程度的更新异常,但如果在实际应用中对此关系模式只是查询,并不执行更新操作,就不会产生实际影响。 对于一个具体应用来说,到底规范化进行到什么程度,需要权衡响应时间和潜在问题两者的利弊才能决定。一般说来,第三范式就足够了。5)、按照需求分析阶段得到的各种应用对数据处理的要求,对关系模式进行必要的分解或合并,提高数据操作效率和存储空间的利用率。
常用分解方法: 水平分解和垂直分解。
水平分解:把(基本)关系的元组分为若干子集合,定义每个子集合为一个子关系,以提高系统的效率。适用范围:1)、满足“80/20原则”的应用:一个大关系中,经常使用的数据只是关系的一部分,约20%,可以把经常使用的水平分解出来。2)、并发事务经常存取不相交的数据:如果关系R上具有n个事务,而且多数事务存取的数据不相交,则R可分解为少于或等于n个子关系,使每个事务存取的数据对应一个关系。
垂直分解:把关系模式R的属性分解为若干子集合,形成若干子关系模式。垂直分解的原则是把经常在一起使用的属性从R中分解出来形成一个子关系模式。其优点是可以提高某些事务的效率,缺点是可能使另一些事务不得不执行连接操作,从而降低了效率。适用范围:取决于分解后R上的所有事务的总效率是否得到了提高。方法有简单情况:直观分解;复杂情况:用第六章中的模式分解算法。垂直分解必须不损失关系模式的语义(即保持无损连接性和保持函数依赖)。
3)、设计用户子模式
定义数据库模式主要是从系统的时间效率、空间效率、易维护等角度出发。定义用户外模式时应该更注重考虑用户的习惯与方便。包括三个方面:1)、使用更符合用户习惯的别名:用视图机制可以在设计用户视图时可以重新定义某些属性名,使其与用户习惯一致,以方便使用。2)、针对不同级别的用户定义不同的视图,以保证系统的安全性。3)、简化用户对系统的使用。如果某些局部应用中经常要使用某些很复杂的查询,为了方便用户,可以将这些复杂查询定义为视图。
其任务是将概念结构转化为具体的数据模型。步骤:1)、将概念结构转化为一般的关系、网状、层次模型。2)、将转化来的关系、网状、层次模型向特定DBMS支持下的数据模型转换。3)、对数据模型进行优化。4)、设计用户子模式。
物理结构设计
数据库在物理设备上的存储结构与存取方法称为数据库的物理结构,它依赖于选定的数据库管理系统。 为一个给定的逻辑数据模型选取一个最适合应用要求的物理结构的过程,就是数据库的物理设计。
数据库的物理设计通常分为两步:1)、确定数据库的物理结构,在关系数据库中主要指存取方法和存储结构。2)、对物理结构进行评价,评价的重点是时间和空间效率。若评价结果满足原设计要求,则可进入到物理实施阶段。否则就需要重新设计或修改物理结构,有时甚至要返回逻辑设计阶段修改数据模型。
1)、数据库的物理设计的内容和方法
设计物理数据库结构的准备工作:1)、充分了解应用环境,详细分析要运行的事务,以获得选择物理数据库设计所需参数。2)、充分了解所用RDBMS的内部特征,特别是系统提供的存取方法和存储结构。3)、知道每个事务在各关系上运行的频率和性能要求。以上这些信息是确定关系的存取方法的依据。
对于数据库查询事务,需要得到如下信息:查询的关系、查询条件所涉及的属性、连接条件所涉及的属性以及查询的投影属性。对于数据更新事务,需要得到如下信息:被更新的关系、每个关系上的更新操作条件所涉及的属性和修改操作要改变的属性值。
关系数据库物理设计的内容包括 为关系模式选择存取方法(建立存取路径);设计关系、索引等数据库文件的物理存储结构。
2)、关系模式存取方法选择
数据库系统是多用户共享的系统,对同一个关系要建立多条存取路径才能满足多用户的多种应用要求。物理设计的第一个任务就是要确定选择哪些存取方法,即建立哪些存取路径。存取方法是快速存取数据库中数据的技术。常用的方法是索引和聚簇方法,B+ 树索引和 hash 索引是数据库中经典的存取方法,使用最普遍。
关于索引:
选择B+树索引存取方法的一般规则:如果一个(或一组)属性经常在查询条件中出现,则考虑在这个(或这组)属性上建立索引(或组合索引)。如果一个属性经常作为最大值和最小值等聚集函数的参数,则考虑在这个属性上建立索引。如果一个(或一组)属性经常在连接操作的连接条件中出现,则考虑在这个(或这组)属性上建立索引。
选择hash索引存取方法的规则:若一个关系的属性主要出现在等值连接条件或等值比较条件中,且满足下列条件之一,可以选择hash存取方法:一个关系的大小可以预知,而且不变;关系的大小动态改变,但DBMS提供动态hash存取方法。
主要知道的是,在关系上定义的索引数过多会带来较多额外开销:维护索引的开销、查找索引的开销等。
关于聚簇:
为了提高某个属性(或属性组)的查询速度,把这个或这些属性(称为聚簇码)上具有相同值的元组集中存放在连续的物理块称为聚簇。许多关系型DBMS都提供了聚簇功能。建立聚簇索引后,基表中数据也需要按指定的聚簇属性值的升序或降序存放,即聚簇索引的索引项顺序与表中元组的物理顺序一致。
一个数据库可以建立多个聚簇,一个关系只能加入一个聚簇。选择聚簇存取方法,就是要确定需要建立多少个聚簇,每个聚簇包括哪些关系。
聚簇大大提高了按聚簇属性进行查询的效率,节省存储空间(聚簇以后,聚簇码相同的元组集中在一起了,因而聚簇码值不必在每个元组中重复存储,只要在一组中存一次就行了)。同时需要知道,聚簇只能提高某些特定应用的性能,建立与维护聚簇的开销相当大。对已有关系建立聚簇,将导致关系中元组移动其物理存储位置,并使此关系上原有的索引无效,必须重建。而又当一个元组的聚簇码改变时,该元组的存储位置也要做相应移动。
聚簇的适用范围:1)、既适用于单个关系独立聚簇,也适用于多个关系组合聚簇。例:假设用户经常要按系别查询学生成绩单,这一查询涉及学生关系和选修关系的连接操作,即需要按学号连接这两个关系,为提高连接操作的效率,可以把具有相同学号值的学生元组和选修元组在物理上聚簇在一起。这就相当于把多个关系按“预连接”的形式存放,从而大大提高连接操作的效率。2)、当通过聚簇码进行访问或连接是该关系的主要应用,与聚簇码无关的其他访问很少或者是次要的时,可以使用聚簇。尤其当SQL语句中包含有与聚簇码有关的ORDER BY,GROUP BY,UNION,DISTINCT等子句或短语时,使用聚簇特别有利,可以省去对结果集的排序操作。
设计候选聚簇的原则:对经常在一起进行连接操作的关系可以建立组合聚簇;如果一个关系的一组属性经常出现在相等比较条件中,则该单个关系可建立聚簇;如果一个关系的一个(或一组)属性上的值重复率很高,则此单个关系可建立聚簇。即对应每个聚簇码值的平均元组数不太少。太少了,聚簇的效果不明显。
检查候选聚簇中的关系,取消其中不必要的关系:从独立聚簇中删除经常进行全表扫描的关系;从独立/组合聚簇中删除更新操作远多于查询操作的关系;从独立/组合聚簇中删除重复出现的关系。当一个关系同时加入多个聚簇时,必须从这多个聚簇方案(包括不建立聚簇)中选择一个较优的,即在这个聚簇上运行各种事务的总代价最小。
3)、确定数据库的存储结构
确定数据库物理结构主要指确定数据的存放位置和存储结构,包括:确定关系、索引、聚簇、日志、备份等的存储安排和存储结构,确定系统配置等。
影响数据存放位置和存储结构要综合考虑存取时间、存储空间利用率和维护代价三方面的因素,而这三个方面常常是相互矛盾的。例:消除一切冗余数据虽能够节约存储空间和减少维护代价,但往往会导致检索代价的增加。因此必须进行权衡,选择一个折中方案。
1、确定数据的存放位置
基本原则:根据应用情况将易变部分与稳定部分、存取频率较高部分与存取频率较低部分分开存放,以提高系统性能。例:数据库数据备份、日志文件备份等由于只在故障恢复时才使用,而且数据量很大,可以考虑存放在磁带上。如果计算机有多个磁盘,可以考虑将表和索引分别放在不同的磁盘上,在查询时,由于两个磁盘驱动器分别在工作,因而可以保证物理读写速度比较快。可以将比较大的表分别放在两个磁盘上,以加快存取速度,这在多用户环境下特别有效。可以将日志文件与数据库对象(表、索引等)放在不同的磁盘以改进系统的性能。
2、确定系统配置
DBMS产品一般都提供了一些存储分配参数:同时使用数据库的用户数、同时打开的数据库对象数、使用的缓冲区长度、个数、时间片大小、数据库的大小、锁的数目等。系统都为这些变量赋予了合理的缺省值。但是这些值不一定适合每一种应用环境,在进行物理设计时,需要根据应用环境确定这些参数值,以使系统性能最优。在物理设计时对系统配置变量的调整只是初步的,在系统运行时还要根据系统实际运行情况做进一步的调整,以期切实改进系统性能。
4)、评价物理结构
评价内容:对数据库物理设计过程中产生的多种方案进行细致的评价,从中选择一个较优的方案作为数据库的物理结构。评价方法:定量估算各种方案、存储空间、存取时间、维护代价,对估算结果进行权衡、比较,选择出一个较优的合理的物理结构,如果该结构不符合用户需求,则需要修改设计。
数据库的实施与维护
数据库实施的工作内容:用DDL定义数据库结构,组织数据入库,编制与调试应用程序,数据库试运行,数据库的运行和维护。具体见图:
确定了数据库的逻辑结构与物理结构后,就可以用所选用的DBMS提供的数据定义语言(DDL)来严格描述数据库结构。比如,可以用SQL语句定义表结构,接着在这些基本表上定义视图。
数据装载:
数据库结构建立好后,就可以向数据库中装载数据了。组织数据入库是数据库实施阶段最主要的工作。数据装载方法:1)人工方法;2)计算机辅助数据入库。
人工方法:适用于小型系统。步骤:1) 、筛选数据。需要装入数据库中的数据通常都分散在各个部门的数据文件或原始凭证中,所以首先必须把需要入库的数据筛选出来。2) 、转换数据格式。筛选出来的需要入库的数据,其格式往往不符合数据库要求,还需要进行转换。这种转换有时可能很复杂。3) 、输入数据。将转换好的数据输入计算机中。4)、 校验数据。检查输入的数据是否有误。
计算机辅助数据入库:适用于中大型系统。步骤:1)、 筛选数据。2) 、输入数据,由录入员将原始数据直接输入计算机中,数据输入子系统应提供输入界面。3) 、校验数据,数据输入子系统采用多种检验技术检查输入数据的正确性。4) 、转换数据,数据输入子系统根据数据库系统的要求,从录入的数据中抽取有用成分,对其进行分类,然后转换数据格式。抽取、分类和转换数据是数据输入子系统的主要工作,也是数据输入子系统的复杂性所在。5)、 综合数据。数据输入子系统对转换好的数据根据系统的要求进一步综合成最终数据。
如果数据库是在老的文件系统或数据库系统的基础上设计的,则数据输入子系统只需要完成转换数据转换成新系统中需要的数据格式。为了保证数据能够及时入库,应在数据库物理设计的同时编制数据输入子系统。
数据库应用程序的设计应该与数据设计并行进行。在数据库实施阶段,当数据库结构建立好后,就可以开始编制与调试数据库的应用程序。调试应用程序时由于数据入库尚未完成,可先使用模拟数据。
数据库试运行:
应用程序调试完成,并且已有一小部分数据入库后,就可以开始数据库的试运行。数据库试运行也称为联合调试,其主要工作包括:1)/功能测试:实际运行应用程序,执行对数据库的各种操作,测试应用程序的各种功能。2)/性能测试:测量系统的性能指标,分析是否符合设计目标。
数据库性能指标的测量:数据库物理设计阶段在评价数据库结构估算时间、空间指标时,作了许多简化和假设,忽略了许多次要因素,因此结果必然很粗糙。数据库试运行则是要实际测量系统的各种性能指标(不仅是时间、空间指标),如果结果不符合设计目标,则需要返回物理设计阶段,调整物理结构,修改参数;有时甚至需要返回逻辑设计阶段,调整逻辑结构。
数据的分期入库:重新设计物理结构甚至逻辑结构,会导致数据重新入库。由于数据入库工作量实在太大,所以可以采用分期输入数据的方法:先输入小批量数据供先期联合调试使用,待试运行基本合格后再输入大批量数据,逐步增加数据量,逐步完成运行评价。
数据库的转储和恢复:在数据库试运行阶段,系统还不稳定,硬、软件故障随时都可能发生;系统的操作人员对新系统还不熟悉,误操作也不可避免。因此必须做好数据库的转储和恢复工作,尽量减少对数据库的破坏。
数据库运行与维护:
数据库试运行结果符合设计目标后,数据库就可以真正投入运行了。数据库投入运行标志着开发任务的基本完成和维护工作的开始。对数据库设计进行评价、调整、修改等维护工作是一个长期的任务,也是设计工作的继续和提高。应用环境在不断变化,数据库运行过程中物理存储也会不断变化。
在数据库运行阶段,对数据库经常性的维护工作主要是由DBA完成的,包括:1)、数据库的转储和恢复。转储和恢复是系统正式运行后最重要的维护工作之一。DBA要针对不同的应用要求制定不同的转储计划,定期对数据库和日志文件进行备份,一旦发生介质故障,即利用数据库备份及日志文件备份,尽快将数据库恢复到某种一致性状态。2)、数据库的安全性、完整性控制。DBA必须根据用户的实际需要授予不同的操作权限。在数据库运行过程中,由于应用环境的变化,对安全性的要求也会发生变化,DBA需要根据实际情况修改原有的安全性控制。由于应用环境的变化,数据库的完整性约束条件也会变化,也需要DBA不断修正,以满足用户要求。3)、数据库性能的监督、分析和改进。在数据库运行过程中, DBA必须监督系统运行,对监测数据进行分析,找出改进系统性能的方法。利用监测工具获取系统运行过程中一系列性能参数的值。通过仔细分析这些数据,判断当前系统是否处于最佳运行状态,如果不是,则需要通过调整某些参数来进一步改进数据库性能。4)、数据库的重组织和重构造。为什么要重组织数据库?数据库运行一段时间后,由于记录的不断增、删、改,会使数据库的物理存储变坏,从而降低数据库存储空间的利用率和数据的存取效率,使数据库的性能下降。其形式包括:全部重组织、部分重组织和只对频繁增、删的表进行重组织。重组织的目标是提高系统性能。重组织的工作有按原设计要求重新安排存储位置、回收垃圾及减少指针链。为什么要进行数据库的重构造?数据库应用环境发生变化,会导致实体及实体间的联系也发生相应的变化,使原有的数据库设计不能很好地满足新的需求。增加新的应用或新的实体,取消某些已有应用,改变某些已有应用。重构造的主要工作:根据新环境调整数据库的模式和内模式,增加新的数据项、改变数据项的类型、改变数据库的容量、增加或删除索引和修改完整性约束条件
数据库的重组织不会改变原设计的数据逻辑结构和物理结构。DBMS一般都提供了重组织数据库使用的实用程序,帮助DBA重新组织数据库。重构造数据库的程度是有限的,若应用变化太大,已无法通过重构数据库来满足新的需求,或重构数据库的代价太大,则表明现有数据库应用系统的生命周期已经结束,应该重新设计新的数据库系统,开始新数据库应用系统的生命周期了。