数据仓库 - 术语

  • 简述

    在本章中,我们将讨论数据仓库中一些最常用的术语。
  • 元数据

    元数据被简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引作为书中内容的元数据。换句话说,我们可以说元数据是将我们引向详细数据的汇总数据。
    在数据仓库方面,我们可以定义元数据如下 -
    • 元数据是数据仓库的路线图。
    • 数据仓库中的元数据定义了仓库对象。
    • 元数据充当目录。该目录帮助决策支持系统定位数据仓库的内容。
  • 元数据存储库

    元数据存储库是数据仓库系统的组成部分。它包含以下元数据 -
    • 业务元数据− 它包含数据所有权信息、业务定义和更改策略。
    • 操作元数据− 它包括数据流通和数据沿袭。数据流通指的是处于活动状态、存档或清除的数据。数据沿袭意味着数据迁移和应用转换的历史。
    • 用于从操作环境映射到数据仓库的数据− IT元数据包括源数据库及其内容、数据提取、数据分区、清洗、转换规则、数据刷新和清除规则。
    • 摘要算法− 包括维度算法、粒度数据、聚合、汇总等。
  • 数据立方体

    数据立方体帮助我们以多个维度表示数据。它由维度和事实定义。维度是企业保存记录所涉及的实体。

    数据立方体的插图

    假设一家公司想借助销售数据仓库跟踪销售记录的时间、项目、分支机构和位置。这些维度允许跟踪月度销售额以及商品在哪个分支机构售出。每个维度都有一个表。该表称为维度表。例如“item”维度表可能有item_name、item_type、item_brand等属性。
    下表表示公司销售数据在时间、项目和位置维度方面的二维视图。
    二维数据立方体
    但是在这个二维表中,我们只有关于时间和项目的记录。新德里的销售额按时间显示,并且根据所售商品的类型显示商品尺寸。如果我们想查看更多维度的销售数据,比如位置维度,那么 3-D 视图会很有用。下表显示了有关时间、项目和位置的销售数据的 3-D 视图 -
    数据立方体 3D
    上面的 3-D 表可以表示为 3-D 数据立方体,如下图所示 -
    数据立方体 3D
  • 数据库

    数据集市包含组织范围内数据的子集,这些数据对组织中的特定人群很有价值。换句话说,数据集市只包含那些特定于特定组的数据。例如,营销数据集市可能只包含与商品、客户和销售相关的数据。数据集市仅限于主题。

    关于数据集市的注意事项

    • 基于 Windows 或基于 Unix/Linux 的服务器用于实现数据集市。它们在低成本服务器上实现。
    • 数据集市的实施周期是以较短的时间段来衡量的,即以周而不是月或年为单位。
    • 如果数据集市的规划和设计不是在组织范围内进行的,那么从长远来看,数据集市的生命周期可能会很复杂。
    • 数据集市的规模很小。
    • 数据集市按部门定制。
    • 数据集市的来源是部门结构的数据仓库。
    • 数据集市是灵活的。
    下图显示了数据集市的图形表示。
    数据库
  • 虚拟仓库

    操作数据仓库的视图称为虚拟仓库。建立虚拟仓库很容易。构建虚拟仓库需要操作数据库服务器的超额容量。