数据仓库 - 流程管理器
-
简述
流程经理负责维护进出数据仓库的数据流。流程管理器分为三种不同类型 -- 负载管理器
- 仓库管理员
- 查询管理器
-
数据仓库负载管理器
负载管理器执行将数据提取和加载到数据库中所需的操作。负载管理器的大小和复杂性因不同数据仓库的特定解决方案而异。负载管理器架构
负载管理器确实执行以下功能 --
从源系统中提取数据。
-
将提取的数据快速加载到临时数据存储中。
-
对类似于数据仓库中结构的结构进行简单转换。
从源中提取数据
数据是从运营数据库或外部信息提供商中提取的。网关是用于提取数据的应用程序。它由底层 DBMS 支持,并允许客户端程序生成要在服务器上执行的 SQL。开放式数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。快速加载
-
为了最小化总加载窗口,需要在尽可能快的时间内将数据加载到仓库中。
-
转换会影响数据处理的速度。
-
在应用转换和检查之前将数据加载到关系数据库中会更有效。
-
网关技术不适合,因为当涉及大量数据时它们效率低下。
简单的转换
加载时,可能需要执行简单的转换。完成简单的转换后,我们就可以进行复杂的检查了。假设我们正在加载 EPOS 销售交易,我们需要执行以下检查 -- 删除仓库中不需要的所有列。
- 将所有值转换为所需的数据类型。
-
-
仓库经理
仓库管理员负责仓库管理流程。它由第三方系统软件、C程序和shell脚本组成。仓库管理员的规模和复杂性因具体解决方案而异。仓库管理架构
仓库经理包括以下内容 -- 控制过程
- 存储过程或带 SQL 的 C
- 备份/恢复工具
- SQL脚本
仓库管理员的职能
仓库经理执行以下功能 --
分析数据以执行一致性和参照完整性检查。
-
针对基础数据创建索引、业务视图、分区视图。
-
生成新聚合并更新现有聚合。
-
生成规范化。
-
将临时存储的源数据转换并合并到已发布的数据仓库中。
-
备份数据仓库中的数据。
-
归档已达到其捕获生命周期终点的数据。
Note− 仓库经理分析查询配置文件以确定索引和聚合是否合适。 -
查询管理器
查询管理器负责将查询定向到合适的表。通过将查询定向到适当的表,它加快了查询请求和响应过程。此外,查询管理器负责安排用户发布的查询的执行。查询管理器架构
查询管理器包括以下组件 -- 通过 C 工具或 RDBMS 查询重定向
- 存储过程
- 查询管理工具
- 通过 C 工具或 RDBMS 进行查询调度
- 通过第三方软件查询调度
查询管理器的功能
-
它以用户理解的形式向用户呈现数据。
-
它安排最终用户发布的查询的执行。
-
它存储查询配置文件以允许仓库经理确定哪些索引和聚合是合适的。