数据仓库 教程

  • 简述

    数据仓库是通过集成来自多个异构源的数据来构建的。它支持分析报告、结构化和/或临时查询和决策制定。本教程采用循序渐进的方式解释数据仓库的所有必要概念。
    本教程将帮助计算机科学专业的毕业生了解与数据仓库相关的从基础到高级的概念。
    在继续学习本教程之前,您应该了解基本的数据库概念,例如模式、ER 模型、结构化查询语言等。
    “数据仓库”一词最早由 Bill Inmon 于 1990 年创造。根据 Inmon 的说法,数据仓库是面向主题的、集成的、时变的和非易失的数据集合。此数据可帮助分析师在组织中做出明智的决策。
    由于发生的事务,操作数据库每天都会频繁更改。假设业务主管想要分析以前对任何数据(例如产品、供应商或任何消费者数据)的反馈,那么该主管将没有可用于分析的数据,因为以前的数据已因交易而更新。
    数据仓库以多维视图为我们提供了广义和统一的数据。除了通用和统一的数据视图外,数据仓库还为我们提供了联机分析处理 (OLAP) 工具。这些工具帮助我们在多维空间中对数据进行交互式和有效的分析。这种分析导致数据泛化和数据挖掘。
    关联、聚类、分类、预测等数据挖掘功能可以与OLAP操作相结合,增强多层次抽象知识的交互挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。
  • 了解数据仓库

    • 数据仓库是一个数据库,与组织的操作数据库分开保存。
    • 数据仓库中没有频繁更新。
    • 它拥有整合的历史数据,可帮助组织分析其业务。
    • 数据仓库帮助管理人员组织、理解和使用他们的数据来做出战略决策。
    • 数据仓库系统有助于整合应用系统的多样性。
    • 数据仓库系统有助于整合历史数据分析。
  • 为什么数据仓库与操作数据库分离

    由于以下原因,数据仓库与操作数据库分开 -
    • 操作数据库是为众所周知的任务和工作负载构建的,例如搜索特定记录、索引等。在合同中,数据仓库查询通常很复杂,并且它们呈现一般形式的数据。
    • 操作型数据库支持并发处理多个事务。运行的数据库需要并发控制和恢复机制来保证数据库的健壮性和一致性。
    • 操作型数据库查询允许读取和修改操作,而 OLAP 查询只需要read only访问存储的数据。
    • 操作数据库维护当前数据。另一方面,数据仓库维护历史数据。
  • 数据仓库功能

    数据仓库的主要特征在下面讨论 -
    • Subject Oriented− 数据仓库是面向主题的,因为它提供有关主题的信息,而不是组织正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的操作,而是关注用于决策的数据建模和分析。
    • Integrated− 通过整合关系数据库、平面文件等异构源的数据构建数据仓库。这种整合增强了数据的有效分析。
    • Time Variant− 数据仓库中收集的数据以特定时间段标识。数据仓库中的数据从历史角度提供信息。
    • Non-volatile− 非易失性是指添加新数据时不会删除以前的数据。数据仓库与操作数据库分开,因此操作数据库的频繁更改不会反映在数据仓库中。
    Note− 数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的并且与操作数据库分开。
  • 数据仓库应用程序

    如前所述,数据仓库可帮助业务主管组织、分析和使用他们的数据进行决策。数据仓库作为企业管理的计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛用于以下领域 -
    • 金融服务
    • 银行服务
    • 消费品
    • 零售业
    • 受控制造
  • 数据仓库的类型

    信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用程序 -
    • Information Processing− 数据仓库允许处理存储在其中的数据。可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理数据。
    • Analytical Processing− 数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的 OLAP 操作来分析数据,包括切片和切块、向下钻取、向上钻取和旋转。
    • Data Mining− 数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以使用可视化工具呈现。
    序号 数据仓库 (OLAP) 操作数据库(OLTP)
    1 它涉及信息的历史处理。 它涉及日常处理。
    2 OLAP 系统由知识工作者(如执行官、经理和分析师)使用。 OLTP 系统由文员、DBA 或数据库专业人员使用。
    3 它用于分析业务。 它用于经营业务。
    4 它侧重于信息输出。 它专注于数据。
    5 它基于 Star Schema、Snowflake Schema 和 Fact Constellation Schema。 它基于实体关系模型。
    6 它侧重于信息输出。 它是面向应用的。
    7 它包含历史数据。 它包含当前数据。
    8 它提供汇总和合并的数据。 它提供原始和高度详细的数据。
    9 它提供了数据的汇总和多维视图。 它提供了数据的详细和平面关系视图。
    10 用户数量为数百。 用户数以千计。
    11 访问的记录数以百万计。 访问的记录数以十为单位。
    12 数据库大小从 100GB 到 100TB。 数据库大小从 100 MB 到 100 GB。
    13 这些都是高度灵活的。 它提供高性能。