数据仓库 - 流程管理器

  • 简述

    流程经理负责维护进出数据仓库的数据流。流程管理器分为三种不同类型 -
    • 负载管理器
    • 仓库管理员
    • 查询管理器
  • 数据仓库负载管理器

    负载管理器执行将数据提取和加载到数据库中所需的操作。负载管理器的大小和复杂性因不同数据仓库的特定解决方案而异。

    负载管理器架构

    负载管理器确实执行以下功能 -
    • 从源系统中提取数据。
    • 将提取的数据快速加载到临时数据存储中。
    • 对类似于数据仓库中结构的结构进行简单转换。
    负载管理器

    从源中提取数据

    数据是从运营数据库或外部信息提供商中提取的。网关是用于提取数据的应用程序。它由底层 DBMS 支持,并允许客户端程序生成要在服务器上执行的 SQL。开放式数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。

    快速加载

    • 为了最小化总加载窗口,需要在尽可能快的时间内将数据加载到仓库中。
    • 转换会影响数据处理的速度。
    • 在应用转换和检查之前将数据加载到关系数据库中会更有效。
    • 网关技术不适合,因为当涉及大量数据时它们效率低下。

    简单的转换

    加载时,可能需要执行简单的转换。完成简单的转换后,我们就可以进行复杂的检查了。假设我们正在加载 EPOS 销售交易,我们需要执行以下检查 -
    • 删除仓库中不需要的所有列。
    • 将所有值转换为所需的数据类型。
  • 仓库经理

    仓库管理员负责仓库管理流程。它由第三方系统软件、C程序和shell脚本组成。仓库管理员的规模和复杂性因具体解决方案而异。

    仓库管理架构

    仓库经理包括以下内容 -
    • 控制过程
    • 存储过程或带 SQL 的 C
    • 备份/恢复工具
    • SQL脚本
    仓库经理

    仓库管理员的职能

    仓库经理执行以下功能 -
    • 分析数据以执行一致性和参照完整性检查。
    • 针对基础数据创建索引、业务视图、分区视图。
    • 生成新聚合并更新现有聚合。
    • 生成规范化。
    • 将临时存储的源数据转换并合并到已发布的数据仓库中。
    • 备份数据仓库中的数据。
    • 归档已达到其捕获生命周期终点的数据。
    Note− 仓库经理分析查询配置文件以确定索引和聚合是否合适。
  • 查询管理器

    查询管理器负责将查询定向到合适的表。通过将查询定向到适当的表,它加快了查询请求和响应过程。此外,查询管理器负责安排用户发布的查询的执行。

    查询管理器架构

    查询管理器包括以下组件 -
    • 通过 C 工具或 RDBMS 查询重定向
    • 存储过程
    • 查询管理工具
    • 通过 C 工具或 RDBMS 进行查询调度
    • 通过第三方软件查询调度
    查询管理器

    查询管理器的功能

    • 它以用户理解的形式向用户呈现数据。
    • 它安排最终用户发布的查询的执行。
    • 它存储查询配置文件以允许仓库经理确定哪些索引和聚合是合适的。