Skip to content

考点清单

  • [x] 数据仓库四大特征
  • [x] 数据仓库四层结构
  • [x] 商业智能(BI)与 OLAP
  • [x] 数据挖掘
  • [x] 反规范化技术
  • [x] 大数据
  • [x] 数据库安全(备份与恢复)

笔记

一、数据仓库

数据仓库是一个**面向主题的、集成的、相对稳定的(非易失的)、反映历史变化(随时间变化)**的数据集合,用于支持管理决策。

特征说明
面向主题按照一定的主题域进行组织
集成的对原有分散数据库数据抽取、清理后加工、汇总、整理,消除不一致性
相对稳定的主要供企业决策分析,涉及操作主要是查询,修改和删除很少
反映历史变化包含历史信息,可对企业发展历程和未来趋势做定量分析和预测

数据仓库四层结构:

  1. 数据源:整个系统的数据源泉
  2. 数据的存储与管理:整个数据仓库系统的核心
  3. OLAP 服务器:对分析需要的数据进行有效集成,按多维模型组织,支持多角度、多层次分析
  4. 前端工具:报表工具、查询工具、数据分析工具、数据挖掘工具等

数据仓库结构


二、商业智能(BI)

BI 系统的四个主要阶段:

  1. 数据预处理(ETL):数据的抽取(Extraction)、转换(Transformation)和加载(Load)
  2. 建立数据仓库:处理海量数据的基础
  3. 数据分析:核心智能环节,采用 OLAP 和数据挖掘两大技术
    • OLAP(联机分析处理):数据汇总/聚集,支持切片、切块、下钻、上卷和旋转等操作,用户可对海量数据进行多维分析
    • 数据挖掘:挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型
  4. 数据展现:保障系统分析结果的可视化

三、数据挖掘

数据挖掘是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

主要任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。


四、反规范化技术

定义:规范化设计后,数据库设计者希望牺牲部分规范化来提高性能

益处问题
降低连接操作的需求数据的重复存储,浪费磁盘空间
降低外码和索引的数目可能出现数据完整性问题
可能减少表的数目增加数据维护的复杂性,降低修改速度
提高查询效率

具体方法:

方法说明
增加冗余列在多个表中保留相同的列,减少或避免查询时的连接操作
增加派生列增加可由本表或其它表中数据计算生成的列,减少连接和计算
重新组表将经常一起查询的两个表重新组成一个表来减少连接
水平分割表根据列值,把数据放到多个独立的表中(适用于数据规模大、数据相对独立)
垂直分割表将主键与部分列放一个表,主键与其它列放另一个表,减少查询 I/O

五、大数据

四大特点:大量化(Volume)、多样化(Variety)、价值密度低(Value)、快速化(Velocity)。

传统数据 vs 大数据:

比较维度传统数据大数据
数据量GB 或 TB 级PB 级或以上
数据分析需求现有数据的分析与检测深度分析(关联分析、回归分析)
硬件平台高端服务器集群平台

大数据处理系统特征:高度可扩展性、高性能、高度容错、支持异构环境、较短的分析延迟、易用且开放的接口、较低成本、向下兼容性。


六、数据库安全(备份与恢复)

备份类型:

分类方式类型说明
按转储方式静态转储(冷备份)转储期间不允许任何存取、修改操作。优点:快速、易归档。缺点:只能恢复到某一时间点
动态转储(热备份)转储期间允许存取、修改操作,转储和用户事务可并发执行。优点:可在表空间级备份,可达秒级恢复。缺点:若失败结果几乎全部无效
按备份内容完全备份备份所有数据
差量备份仅备份上一次完全备份之后变化的数据
增量备份备份上一次备份之后变化的数据

日志文件:

在事务处理过程中,DBMS 把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS 的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。

关键题点:日志文件记录的是操作内容,数据文件存放的是实际数据。恢复时依据日志文件可知有哪些操作,依据数据文件可知操作的数据是什么。