数据仓库 - 术语
-
简述
在本章中,我们将讨论数据仓库中一些最常用的术语。 -
元数据
元数据被简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引作为书中内容的元数据。换句话说,我们可以说元数据是将我们引向详细数据的汇总数据。在数据仓库方面,我们可以定义元数据如下 --
元数据是数据仓库的路线图。
-
数据仓库中的元数据定义了仓库对象。
-
元数据充当目录。该目录帮助决策支持系统定位数据仓库的内容。
-
-
元数据存储库
元数据存储库是数据仓库系统的组成部分。它包含以下元数据 --
业务元数据− 它包含数据所有权信息、业务定义和更改策略。
-
操作元数据− 它包括数据流通和数据沿袭。数据流通指的是处于活动状态、存档或清除的数据。数据沿袭意味着数据迁移和应用转换的历史。
-
用于从操作环境映射到数据仓库的数据− IT元数据包括源数据库及其内容、数据提取、数据分区、清洗、转换规则、数据刷新和清除规则。
-
摘要算法− 包括维度算法、粒度数据、聚合、汇总等。
-
-
数据立方体
数据立方体帮助我们以多个维度表示数据。它由维度和事实定义。维度是企业保存记录所涉及的实体。数据立方体的插图
假设一家公司想借助销售数据仓库跟踪销售记录的时间、项目、分支机构和位置。这些维度允许跟踪月度销售额以及商品在哪个分支机构售出。每个维度都有一个表。该表称为维度表。例如“item”维度表可能有item_name、item_type、item_brand等属性。下表表示公司销售数据在时间、项目和位置维度方面的二维视图。但是在这个二维表中,我们只有关于时间和项目的记录。新德里的销售额按时间显示,并且根据所售商品的类型显示商品尺寸。如果我们想查看更多维度的销售数据,比如位置维度,那么 3-D 视图会很有用。下表显示了有关时间、项目和位置的销售数据的 3-D 视图 -上面的 3-D 表可以表示为 3-D 数据立方体,如下图所示 - -
数据库
数据集市包含组织范围内数据的子集,这些数据对组织中的特定人群很有价值。换句话说,数据集市只包含那些特定于特定组的数据。例如,营销数据集市可能只包含与商品、客户和销售相关的数据。数据集市仅限于主题。关于数据集市的注意事项
-
基于 Windows 或基于 Unix/Linux 的服务器用于实现数据集市。它们在低成本服务器上实现。
-
数据集市的实施周期是以较短的时间段来衡量的,即以周而不是月或年为单位。
-
如果数据集市的规划和设计不是在组织范围内进行的,那么从长远来看,数据集市的生命周期可能会很复杂。
-
数据集市的规模很小。
-
数据集市按部门定制。
-
数据集市的来源是部门结构的数据仓库。
-
数据集市是灵活的。
下图显示了数据集市的图形表示。 -
-
虚拟仓库
操作数据仓库的视图称为虚拟仓库。建立虚拟仓库很容易。构建虚拟仓库需要操作数据库服务器的超额容量。