体系架构师考点--数据库体系

打印 上一主题 下一主题

主题 861|帖子 861|积分 2587

大家好。本日我来总结一下数据库体系的相关考点。本考点一样平常情况下上午场测验占3-5分,下战书场案例分析题也会出现。
一、数据库体系

数据:数据库中存储的根本对象,是描述事物的符号记录。数据的种类:文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等。
数据库DB:长期存储在计算机内、有组织的、可共享的大量数据的集合
数据库的根本特性:数据按一定的数据模型组织、描述和存储;可为各种用户共享;冗余度较小;数据独立性较高;易扩展。
数据库体系DBS:是一个采用了数据库技能,有组织地、动态地存储大量相关数据,方便多用户访问的计算机体系。其由下面四个部门构成:
数据库:同一管理、长期存储在计算机内的,有组织的相关数据的集合。
硬件:构成计算机体系包括存储数据所需的外部装备。
软件:操作体系、数据库管理体系及应用程序。
人员:体系分析和数据库设计人员、应用程序员、终极用户、数据库管理员DBA。
数据库管理体系DBMS的功能:实现对共享数据有效的组织、管理和存取。包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的创建和维护等。
二、三级模式-两级映射


内模式:管理怎样存储物理的数据,对应具体物理存储文件。
模式:又称为概念模式,就是我们通常利用的根本表,根据应用、需求将物理数据划分成一张张表。
外模式:对应数据库中的视图这个级别,将表举行一定的处理后再提供给用户利用。
外模式一模式映像:表和视图之间的映射,存在于概念级和外部级之间,若表中数据发生了修改,只需要修改此映射,而无需修改应用程序。
模式一内模式映像:表和数据的物理存储之间的映射存在于概念级和内部级之间,若修改了数据存储方式,只需要修改此映射,而不需要去修改应用程序。
三、数据库设计


1. 需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书。获得用户对体系的三个要求:信息要求、处理要求、体系要求。
2. 概念结构设计:就是设计E-R图,也即实体-联系图。工作步骤包括:选择局部应用、逐一设计分E-R图、E-R图合并。分E-R 图举行合并时,它们之间存在的冲突主要有以下3类:
属性冲突:同一属性可能会存在于不同的E-R图中。
定名冲突:相同意义的属性,在不同的分E-R 图上有着不同的定名或是名称相同的属性在不同的分E-R 图中代表着不同的意义。
结构冲突:同一实体在不同的分E-R图中有不同的属性,同一对象在某一分E-R 图中被抽象为实体而在另一分E-R 图中又被抽象为属性
3. 逻辑结构设计:将E-R图,转换成关系模式。工作步骤包括:确定命据模型、将E-R 图转换成为指定的数据模型、确定完整性约束和确定用户视图。
4. 物理设计:步骤包括确定命据分布、存储结构和访问方式。
5. 数据库实施阶段:根据逻辑设计和物理设计阶段的结果创建数据库,体例与调试应用程序,组织数据入库,并举行试运行。
6. 数据库运行和维护阶段:数据库应用体系经过试运行即可投入运行,但该阶段需要不断地对体系举行评价、调解与修改。
例题:

答案:C、A、A、C
四、数据模型

关系模型:二维表的形式表示的实体-联系模型,是将实体-联系模型转换而来的,经过开发人员设计的。
概念模型:从用户的角度举行建模的,是实际天下到信息天下的第一抽象是真正的实体-联系模型。
网状模型:表示实体范例及其实体之间的联系,一个事物和另外几个都有联系形成一张网。
面向对象模型:采用面向对象的方法设计数据库,以对象为单位,每个对象包括属性和方法,具有类和继承等特点。
数据模型三要素:数据结构(所研究的对象范例的集合)、数据操作(对数据库中各种对象的实例允许执行的操作的集合)、数据的约束条件(一组完整性规则的集合)。
我们通过E-R图来描述概念数据模型,天下是由一组称作实体的根本对象和这些对象之间的联系构成的。在E-R模型中,利用椭圆表示属性(一样平常没有)、长方形表示实体、菱形表示联系,联系的两端要填写联系范例,示比方下图:

实体:客观在在并可相互区别的事物。可以是具体的人、事、物或抽象概念如人、汽车、图书、账户、贷款。
弱实体和强实体:弱实体依赖于强实体的存在而存在。
实体集:具有相同范例和共享相同属性的实体的集合,如学生、课程。
属性:实体所具有的特性
属性分类:简单属性和复合属性;单值属性和多值属性;NULL属性;派生属性。
:属性的取值范围称为该属性的域。
码(key):唯一标识实体的属性集。
联系:实际天下中事物内部以及事物之间的联系,在E-R图中反映为实体内部的联系和实体之间的联系。
联系范例:一对一1:1、一对多1:N、多对多M:N。
两个以上实体型的联系:

E-R模型转换为关系模型:
每个实体都对应一个关系模式;联系分为三种:
1:1联系:联系可以放到任意的两端实体中,作为一个属性(要包管1:1的两端关联),也可以转换为一个单独的关系模式。
1:N联系:联系可以单独作为一个关系模式,也可以在N端中参加1端实体的主键;
M:N联系:联系必须作为一个单独的关系模式,其主键是M和N端的团结主键。
例题:

答案:C、A
五、关系代数

并:结果是两张表中所有记录数合并,相同记录只表现一次。
交:结果是两张表中相同的记录。
差:S1-S2,结果是S1表中有而S2表中没有的那些记录。

笛卡尔积:S1S2,产生的结果包括S1和S2的所有属性列,并且S1中每条记录依次和S2中所有记录组合成一条记录,终极属性列为S1+S2属性列,记录数为S1S2记录数。
投影(π):实际是按条件选择某关系模式中的某列,列也可以用数字表示。
选择(σ):实际是按条件选择某关系模式中的某条记录。

自然连接:自然连接的结果表现全部的属性列,但是相同属性列只表现一次,表现两个关系模式中属性相同且值相同的记录。设有关系R、S如下左图所示,自然连接结果如下右图所示:

例题:

答案:B、D
六、函数依赖

给定一个X,能唯一确定一个Y,就称X确定Y,大概说Y依赖于X,比方Y=X*X函数。
函数依赖又可扩展以下两种规则:
部门函数依赖:A可确定C,(A,B)也可确定C,(A,B)中的一部门(即A)可以确定C,称为部门函数依赖。
传递函数依赖:当A和B不等价时,A可确定B,B可确定C,则A可确定C,是传递函数依赖;若A和B等价,则不存在传递,直接就可确定C。

函数依赖的公理体系(Armstrong)
设关系模式R<U,F>,U是关系模式R的属性全集,F是关系模式R的一个函数依赖集。对于R<U,F>来说有以下的:
自反律:若YSXCU,则X→Y为F所逻辑蕴含。
增广律:若X→Y为F所逻辑蕴含,且ZU,则XZ→YZ为F所逻辑蕴含。
传递律:若X→Y和Y-Z为F所逻辑蕴含,则X→Z为F所逻辑蕴含。
合并规则:若X→Y,X→Z,则X→YZ为F所蕴含。
伪传递率:若X→Y,WY→Z,则XW→Z为F所蕴含。
分解规则:若X→Y,ZSY,则X→Z为F所蕴含。
七、键与约束

超键:能唯一标识此表的属性的组合。
侯选键:超键中去掉冗余的属性,剩余的属性就是候选键。
主键:任选一个候选键,即可作为主键。
外键:其他表中的主键。
主属性:候选键内的属性为主属性,其他属性为非主属性。
实体完整性约束:即主键约束,主键值不能为空,也不能重复。
参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值大概为空。
用户自定义完整性约束:自定义表达式约束,如设定年事属性的值必须在0到150之间。
八、范式

第一范式1NF
关系中的每一个分量必须是一个不可分的数据项。通俗地说,第一范式就是表中不允许有小表的存在。比如,对于如下的员工表,就不属于第一范式:

实例:用一个单一的关系模式学生来描述学校的教务体系:学生(学号,学生姓名,系号,系主任姓名,课程号,成绩)。依赖关系:(学号->学生,学生->学生姓名,学生->系号,系号->系主任姓名,学生->课程号,(学生,课程号)->成绩)

第二范式
如果关系R属于1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R属于2NF。通俗地说,2NF就是在1NF的基础上,表中的每一个非主属性不会依赖复合主键中的某一个列。按照定义,上面的学生表就不满意2NF,因为学号不能完全确定课程号和成绩(每个学生可以选多门课)。
将学生表分解为:
学生(学号,学生姓名,系编号,系名,系主任)。
选课(学号,课程号,成绩)。
每张表均属于2NF。
第三范式
在满意1NF的基础上,表中不存在非主属性对码的传递依赖。
继承上面的实例,学生关系模式就不属于3NF,因为学生无法直接决定系主任和系名,是由学号->系编号,再由系编号->系主任,系编号->系名,因此存在非主属性对主属性的传递依赖,
将学生表进一步分解为:
学生(学号,学生姓名,系编号)
系(系编号,系名,系主任)
选课(学号,课程号,成绩)
每张表都属于3NF。
BC范式BCNF
BC范式是指在第三范式的基础上进一步消除主属性对于码的部门函数依赖和传递依赖。通俗的来说,就是在每一种情况下,每一个依赖的左边决定因素都一定包罗候选键,如下:

上图中,候选键有两种情况:组合键(S,T)大概(S,J),依赖集为{SJ-T,T-J}可知,STJ三个属性都是主属性,因此其达到了3NF(无非主属性),然而,第二种情况,即(SJ)为候选键的时间,对于依赖T->J,T在这种情况不是候选键,即T-J的决定因素不包罗任意候选码,因此上图不是BCNF。
要使上图关系模式转换为BCNF也很简单,只需要将依赖T->J变为TS->J即可这样其左边决定因素就包罗了候选键之一S。
例题:

答案:C、A、A、D
九、模式分解

范式之间的转换一样平常都是通过拆分属性,即模式分解,将具有部门函数依赖和传递依赖的属性分离出来,来达到一步步优化,一样平常分为以下两种:
保持函数依赖分解
对于关系模式R,有依赖集F,若对R举行分解,分解出来的多个关系模式,保持原来的依赖集不变,则为保持函数依赖的分解。另外,注意要消撤除冗余依赖(如传递依赖)
实例:设原关系模式R(A,B,C),依赖集F(A->B,B->C,A->C),将其分解为两个关系模式R1(A,B)和R2(B,C),此时R1中保持依赖A->B,R2保持依赖B->C,说明分解后的R1和R2是保持函数依赖的分解,因为A->C这个函数依赖实际是一个冗余依赖,可以由前两个依赖传递得到,因此不需要管。
保持函数依赖的判断:
1、如果F上的每一个函数依赖都在其分解后的某一个关系上建立,则这个分解是保持依赖的(这是一个充实条件)。也即我们课堂上说的简单方法,看函数每个依赖的左右两边属性是否都在同一个分解的模式中。
2、如果上述判断失败,并不能断言分解不是保持依赖的,还要利用下面的通用方法来做进一步判断。该方法的表述如下:
对F上的每一个α→β利用下面的过程:
  1. result:=α;
  2. while(result发生变化)do
  3. for each 分解后的Ri
  4. t=(result∩Ri)+ ∩Ri
  5. result=result∪t
复制代码
例题:

答案:D
无损分解
分解后的关系模式可以大概还原出原关系模式,就是无损分解,不能还原就是有损。
当分解为两个关系模式,可以通过以下定理判断是否无损分解:
如果R的分解为p={R1,R2,F为R所满意的函数依赖集合,分解p具有无损连接性的充实须要条件是R1nR2->(R1-R2)大概R1nR2->(R2-R1)。
当分解为三个及以上关系模式时,可以通过表格法求解,如下:

例题:

答案:A、D
十、并发控制

事务:由一系列操作构成,这些操作,要么全做,要么全不做,拥有四种特性,详解如下:
(操作)原子性:要么全做,要么全不做。
(数据)一致性:事务发生后数据是一致的,比方银行转账,不会存在A账户转出,但是B账户没收到的情况。
(执行)隔离性:任一事务的更新操作直到其乐成提交的整个过程对其他事务都是不可见的,不同事务之间是隔离的,互不干涉。
(改变)持续性:事务操作的结果是持续性的,
事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,进步体系效率,但是并发控制中存在下面三个问题:
丢失更新:事务1对数据A举行了修改并写回,事务2也对A举行了修改并写回此时事务2写回的数据会覆盖事务1写回的数据,就丢失了事务1对A的更新。即对数据A的更新会被覆盖。
不可重复读:事务2读A,而后事务1对数据A举行了修改并写回,此时若事务2再读A,发现数据不对。即一个事务重复读A两次,会发现数据A有误。
读脏数据:事务1对数据A举行了修改后,事务2读数据A,而后事务1回滚,数据A规复了原来的值,那么事务2对数据A做的事是无效的,读到了脏数据。

十一、封锁协议

X锁是排它锁(写锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何范例的锁,直到T释放A上的锁。
S锁是共享锁(读锁)。若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事务只能再对A加S锁(也即能读不能修改),直到T释放A上的S锁。
共分为三级封锁协议,如下直到事务竣事才释放:
一级封锁协议:事务在修改数据R之前必须先对其加X锁可办理丢失更新问题。

二级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁。可办理丢失更新、读脏数据问题。

三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务竣事才释放。可办理丢失更新、读脏数据、数据重复读问题。

例题:

答案:C、D、C
十二、数据库安全


静态转储:即冷备份,指在转储期间不允许对数据库举行任何存取、修改操作优点黑白常快速的备份方法、容易归档(直接物理复制操作);缺点是只能提供到某一时间点上的规复,不能做其他工作,不能按表或按用户规复。
动态转储:即热备份,在转储期间允许对数据库举行存取、修改操作,因此,转储和用户事务可并发执行;优点是可在表空间或数据库文件级备份,数据库仍可利用,可达到秒级规复缺点是不能出错,否则结果严重,若热备份不乐成,所得结果几乎全部无效。
完全备份:备份所有数据。
差量备份:仅备份上一次完全备份之后变化的数据。
增量备份:备份上一次备份之后变化的数据。
日志文件:在事务处理过程中,DBMS把事务开始、事务竣事以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS的规复子体系利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。
十三、分布式数据库


局部数据库位于不同的物理位置,利用一个全局DBMS将所有局部数据库联网管理,这就是分布式数据库。
分片模式
水平分片:将表中水平的记录分别存放在不同的地方。
垂直分片:将表中的垂直的列值分别存放在不同的地方。
分布透明性
分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是怎样分块存储的。
位置透明性:应用程序不关心数据存储物理位置的改变逻辑透明性:用户或应用程序无需知道局部利用的是哪种数据模型。
复制透明性:用户或应用程序不关心复制的数据从何而来。
十四、数据仓库技能

数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合,用于支持管理决策。
面向主题:按照一定的主题域举行组织的。
集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过体系加工、汇总和整理得到的,必须消除源数据中的不一致性,以包管数据仓库内的信息是关于整个企业的一致的全局信息。
相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一样平常情况下将被长期保存,也就是数据仓库中一样平常有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、革新。
反映汗青变化:数据仓库中的数据通常包罗汗青信息,体系记录了企业从过去某一时点(如开始应用数据仓库的时点)到现在的各个阶段的信息,通过这些信息,可以对企业的发展历程和将来趋势做出定量分析和猜测。
数据仓库的结构通常包罗四个层次,如下图所示:
1.数据源:是数据仓库体系的基础,是整个体系的数据源泉。
2.数据的存储与管理:是整个数据仓库体系的核心。
3.OLAP(联机分析处理)服务器:对分析需要的数据举行有效集成,按多维模型组织,以便举行多角度、多层次的分析,并发现趋势,
4.前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

贸易智能
BI体系主要包括数据预处理、创建数据仓库、数据分析和数据展现四个主要阶段。
数据预处理:整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL过程)。
创建数据仓库:处理海量数据的基础。
数据分析:表现体系智能的关键,一样平常采用联机分析处理(OLAP)和数据挖掘两大技能。联机分析处理不仅举行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据举行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析聚类和分类等方法创建分析模型,猜测企业将来发展趋势和将要面对的问题。
数据展现:主要保障体系分析结果的可视化。
十五、反规范化技能

反规范化技能:规范化设计后,数据库设计者希望牺牲部门规范化来进步性能。
采用反规范化技能的益处:降低连接操作的需求、降低外码和索引的数目,还可能减少表的数目,可以大概进步查询效率。
可能带来的问题:数据的重复存储,浪费了磁盘空间;可能出现数据的完整性问题,为了保障数据 的一致性,增加了数据维护的复杂性,会降低修改速率。
反规范化具体方法:
增加冗余列:在多个表中保存相同的列,通过增加数据冗余减少或避免查询时的连接操作。
增加派生列:在表中增加可以由本表或其它表中数据计算生成的列,减少查询时的连接操作并避免计算或利用集合函数。
重新组表:如果很多用户需要查看两个表连接出来的结果数据,则把这两个表重新构成一个表来减少连接而进步性能。
水平分割表:根据一列或多列数据的值,把数据放到多个独立的表中,主要用于表数据规模很大、表中数据相对独立或数据需要存放到多个介质上时利用。
垂直分割表:对表举行分割,将主键与部门列放到一个表中,主键与其它列放到另一个表中,在查询时减少//0次数。
十六、大数据

特点:大量化、多样化、代价密度低、快速化。
大数据和传统数据的比较如下:

要处理大数据称为大数据处理体系,一样平常利用集成平台,其特性为:高度可扩展性、高性能、高度容错、支持异构情况、较短的分析延迟、易用且开放的接口、较低资源、向下兼容性。
例题:

答案:C、B、C
十七、SQL语言

SQL语言中的语法关键字,不区分大小写:
  1. 创建表create table;
  2. 指定主键primary key();
  3. 指定外键foreign key();
  4. 修改表alter table;
  5. 删除表drop table;
  6. 索引index,视图view;
复制代码
数据库查询:select…from…where;
分组查询group by:分组时要注意select后的列名要顺应分组,having为分组查询附加条件:
  1. select sno,avg(score) from student group by sno having(avg(score)>60)
复制代码
更名运算as:
  1. select sno as “学号” from t1
复制代码
字符串匹配like:%匹配多个字符串,匹配任意一个字符串:
  1. select*from t1where sname like 'a'
复制代码
数据库插入insert into…values():
  1. insert into t1 values('a',66)
复制代码
数据库删除delete from…where:
  1. delete t1 where sno=4
复制代码
数据库修改update…set…where:
  1. update t1 set sname='aa where sno=3
复制代码
排序order by:默以为升序,降序要加关键字DE5C。
  1. select * from t1 order bysno desc
复制代码
DISTINCT:过滤重复的选项,只保存一条记录。
UNION:出现在两个SQL语句之间,将两个SQL语句的查询结果取或运算,即值存在于第一句或第二句都会被选出。
INTERSECT:对两个SQL语句的查询结果做与运算,即值同时存在于两个语句才被选出。
MIN、AVG、MAX:分组查询时的聚合函数。
例题:

答案:A、A、D

答案:C、A、D、B
好了,到这里就总结完了。大家千万不要放弃,最好的东西,总会压轴进场!加油!
末了依旧是请希望大家能给作者点个关注,谢谢大家!各位老板有钱的捧个人场,没钱的也捧个人场,谢谢各位老板!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王國慶

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表