数据仓库 - 数据集市

  • 为什么我们需要数据集市?

    下面列出了创建数据集市的原因 -
    • 对数据进行分区以便强加access control strategies.
    • 通过减少要扫描的数据量来加快查询速度。
    • 将数据分段到不同的硬件平台。
    • 以适合用户访问工具的形式构建数据。
    注意− 不要出于任何其他原因进行数据集市,因为数据集市的运营成本可能非常高。在数据集市之前,确保数据集市策略适合您的特定解决方案。
  • 具有成本效益的数据营销

    按照下面给出的步骤使数据营销具有成本效益 -
    • 确定功能拆分
    • 确定用户访问工具要求
    • 识别访问控制问题

    确定功能拆分

    在此步骤中,我们确定组织是否具有自然的职能划分。我们寻找部门分裂,并确定部门使用信息的方式是否倾向于与组织的其他部门隔离。让我们举个例子。
    考虑一个零售组织,其中每个商家都负责最大化一组产品的销售。为此,以下是有价值的信息 -
    • 每日销售交易
    • 每周销售预测
    • 每日股票头寸
    • 每日股票走势
    由于商家对他们不处理的产品不感兴趣,因此数据集市是感兴趣的产品组的数据处理的子集。下图显示了不同用户的数据集市。
    数据营销
    以下是确定功能拆分时要考虑的问题 -
    • 部门的结构可能会发生变化。
    • 产品可能会从一个部门转到另一个部门。
    • 商家可以查询其他商品的销售趋势,分析销售情况。
    注意− 我们需要确定使用数据集市的商业利益和技术可行性。

    确定用户访问工具要求

    我们需要数据集市来支持user access tools需要内部数据结构。这种结构中的数据不受数据仓库的控制,但需要定期填充和更新。
    有些工具可以直接从源系统填充,但有些不能。因此,未来需要确定该工具范围之外的其他要求。
    注意− 为了确保所有访问工具之间数据的一致性,数据不应直接从数据仓库中填充,而是每个工具必须有自己的数据集市。

    识别访问控制问题

    应该有隐私规则来确保只有授权用户才能访问数据。例如,零售银行机构的数据仓库确保所有账户都属于同一法人实体。隐私法可以强制您完全阻止访问不属于特定银行的信息。
    数据集市允许我们通过物理分离数据仓库中的数据段来构建完整的墙。为避免可能出现的隐私问题,可以从数据仓库中删除详细数据。我们可以为每个法律实体创建数据集市,并通过数据仓库加载它,其中包含详细的账户数据。
  • 设计数据集市

    数据集市应设计为数据仓库内较小版本的 starflake 模式,并应与数据仓库的数据库设计相匹配。它有助于保持对数据库实例的控制。
    设计数据集市
    摘要是数据集市的方式与它们在数据仓库中的设计方式相同。汇总表有助于利用 starflake 模式中的所有维度数据。
  • 数据营销成本

    数据集市的成本措施如下 -
    • 硬件和软件成本
    • 网络访问
    • 时间窗约束

    硬件和软件成本

    尽管数据集市是在相同的硬件上创建的,但它们需要一些额外的硬件和软件。为了处理用户查询,它需要额外的处理能力和磁盘存储。如果数据仓库中存在详细数据和数据集市,那么我们将面临存储和管理复制数据的额外成本。
    注意− 数据集市比聚合更昂贵,因此应将其用作附加策略而不是替代策略。

    网络访问

    数据集市可能位于与数据仓库不同的位置,因此我们应该确保 LAN 或 WAN 有能力处理在数据集市内传输的数据量data mart load process.

    时间窗约束

    数据集市加载过程占用可用时间窗口的程度取决于转换的复杂性和传输的数据量。确定有多少数据集市可能取决于 -
    • 网络容量。
    • 可用的时间窗口
    • 传输的数据量
    • 用于将数据插入数据集市的机制