Appearance
考点清单
- [x] 数据仓库四大特征
- [x] 数据仓库四层结构
- [x] 商业智能(BI)与 OLAP
- [x] 数据挖掘
- [x] 反规范化技术
- [x] 大数据
- [x] 数据库安全(备份与恢复)
笔记
一、数据仓库
数据仓库是一个**面向主题的、集成的、相对稳定的(非易失的)、反映历史变化(随时间变化)**的数据集合,用于支持管理决策。
| 特征 | 说明 |
|---|---|
| 面向主题 | 按照一定的主题域进行组织 |
| 集成的 | 对原有分散数据库数据抽取、清理后加工、汇总、整理,消除不一致性 |
| 相对稳定的 | 主要供企业决策分析,涉及操作主要是查询,修改和删除很少 |
| 反映历史变化 | 包含历史信息,可对企业发展历程和未来趋势做定量分析和预测 |
数据仓库四层结构:
- 数据源:整个系统的数据源泉
- 数据的存储与管理:整个数据仓库系统的核心
- OLAP 服务器:对分析需要的数据进行有效集成,按多维模型组织,支持多角度、多层次分析
- 前端工具:报表工具、查询工具、数据分析工具、数据挖掘工具等

二、商业智能(BI)
BI 系统的四个主要阶段:
- 数据预处理(ETL):数据的抽取(Extraction)、转换(Transformation)和加载(Load)
- 建立数据仓库:处理海量数据的基础
- 数据分析:核心智能环节,采用 OLAP 和数据挖掘两大技术
- OLAP(联机分析处理):数据汇总/聚集,支持切片、切块、下钻、上卷和旋转等操作,用户可对海量数据进行多维分析
- 数据挖掘:挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型
- 数据展现:保障系统分析结果的可视化
三、数据挖掘
数据挖掘是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
主要任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
四、反规范化技术
定义:规范化设计后,数据库设计者希望牺牲部分规范化来提高性能。
| 益处 | 问题 |
|---|---|
| 降低连接操作的需求 | 数据的重复存储,浪费磁盘空间 |
| 降低外码和索引的数目 | 可能出现数据完整性问题 |
| 可能减少表的数目 | 增加数据维护的复杂性,降低修改速度 |
| 提高查询效率 |
具体方法:
| 方法 | 说明 |
|---|---|
| 增加冗余列 | 在多个表中保留相同的列,减少或避免查询时的连接操作 |
| 增加派生列 | 增加可由本表或其它表中数据计算生成的列,减少连接和计算 |
| 重新组表 | 将经常一起查询的两个表重新组成一个表来减少连接 |
| 水平分割表 | 根据列值,把数据放到多个独立的表中(适用于数据规模大、数据相对独立) |
| 垂直分割表 | 将主键与部分列放一个表,主键与其它列放另一个表,减少查询 I/O |
五、大数据
四大特点:大量化(Volume)、多样化(Variety)、价值密度低(Value)、快速化(Velocity)。
传统数据 vs 大数据:
| 比较维度 | 传统数据 | 大数据 |
|---|---|---|
| 数据量 | GB 或 TB 级 | PB 级或以上 |
| 数据分析需求 | 现有数据的分析与检测 | 深度分析(关联分析、回归分析) |
| 硬件平台 | 高端服务器 | 集群平台 |
大数据处理系统特征:高度可扩展性、高性能、高度容错、支持异构环境、较短的分析延迟、易用且开放的接口、较低成本、向下兼容性。
六、数据库安全(备份与恢复)
备份类型:
| 分类方式 | 类型 | 说明 |
|---|---|---|
| 按转储方式 | 静态转储(冷备份) | 转储期间不允许任何存取、修改操作。优点:快速、易归档。缺点:只能恢复到某一时间点 |
| 动态转储(热备份) | 转储期间允许存取、修改操作,转储和用户事务可并发执行。优点:可在表空间级备份,可达秒级恢复。缺点:若失败结果几乎全部无效 | |
| 按备份内容 | 完全备份 | 备份所有数据 |
| 差量备份 | 仅备份上一次完全备份之后变化的数据 | |
| 增量备份 | 备份上一次备份之后变化的数据 |
日志文件:
在事务处理过程中,DBMS 把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS 的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。
关键题点:日志文件记录的是操作内容,数据文件存放的是实际数据。恢复时依据日志文件可知有哪些操作,依据数据文件可知操作的数据是什么。