AWS - 数据管道

  • 简述

    AWS Data Pipeline是一项 Web 服务,旨在让用户更轻松地集成分布在多个 AWS 服务中的数据并从一个位置对其进行分析。
    使用 AWS Data Pipeline,可以从源访问数据并进行处理,然后将结果有效地传输到相应的 AWS 服务。
  • 如何设置数据管道?

    以下是设置数据管道的步骤 -
    步骤 1− 使用以下步骤创建管道。
    • 登录 AWS 账户。
    • 使用此链接打开 AWS Data Pipeline 控制台 - https://console.aws.amazon.com/datapipeline/
    • 在导航栏中选择区域。
    • 单击创建新管道按钮。
    • 在相应字段中填写所需的详细信息。
      • 在 Source 字段中,选择 Build using a template,然后选择此模板 - Getting Started using ShellCommandActivity。
    创建管道
      • 参数部分仅在选择模板时打开。让 S3 输入文件夹和 Shell 命令以其默认值运行。单击 S3 输出文件夹旁边的文件夹图标,然后选择存储桶。
      • 在计划中,将值保留为默认值。
      • 在管道配置中,将日志记录保留为启用状态。单击日志的 S3 位置下的文件夹图标,然后选择存储桶。
      • 在安全/访问中,将 IAM 角色值保留为默认值。
      • 单击激活按钮。
  • 如何删除管道?

    删除管道也会删除所有关联的对象。
    步骤 1− 从管道列表中选择管道。
    步骤 2− 单击操作按钮,然后选择删除。
    创建新管道
    步骤 3− 确认提示窗口打开。单击删除。
  • AWS 数据管道的功能

    简单&廉价− 它的拖放功能使在控制台上创建管道变得容易。它的可视化管道创建器提供了一个管道模板库。这些模板可以更轻松地为处理日志文件、将数据归档到 Amazon S3 等任务创建管道。
    可靠− 其基础设施专为容错执行活动而设计。如果活动逻辑或数据源中发生故障,AWS Data Pipeline 会自动重试该活动。如果失败继续,那么它将发送失败通知。我们甚至可以针对成功运行、失败、活动延迟等情况配置这些通知警报。
    灵活− AWS Data Pipeline 提供各种功能,例如调度、跟踪、错误处理等。它可以配置为执行诸如运行 Amazon EMR 作业、直接针对数据库执行 SQL 查询、执行在 Amazon EC2 上运行的自定义应用程序等操作。