AWS - 弹性 MapReduce(EMR)

简述

Amazon Elastic MapReduce (EMR)是一种 Web 服务，它提供了一个托管框架，以一种简单、经济高效和安全的方式运行数据处理框架，例如 Apache Hadoop、Apache Spark 和 Presto。

它用于数据分析、网络索引、数据仓库、财务分析、科学模拟等。

按照以下步骤设置 Amazon EMR -

步骤 1− 登录 AWS 账户并在管理控制台上选择 Amazon EMR。

步骤 2− 为集群日志和输出数据创建 Amazon S3 存储桶。（过程在 Amazon S3 部分中有详细说明）

步骤 3− 启动 Amazon EMR 集群。

以下是创建集群并将其启动到 EMR 的步骤。

在文件系统配置部分，将 EMRFS 的选项保留为默认设置。EMRFS 是 HDFS 的一种实现，它允许 Amazon EMR 集群在 Amazon S3 上存储数据。

在安全和访问部分，对于 EC2 密钥对，从 EC2 密钥对字段的列表中选择该对，并将其他设置保留为默认值。
在 Bootstrap Actions 部分，将字段保留为默认设置，然后单击 Add 按钮。引导操作是在每个集群节点上启动 Hadoop 之前在设置期间执行的脚本。
在“步骤”部分，将设置保留为默认设置并继续。
单击 Create Cluster 按钮，打开 Cluster Details 页面。这是我们应该将 Hive 脚本作为集群步骤运行并使用 Hue Web 界面查询数据的地方。

步骤 4− 使用以下步骤运行 Hive 脚本。

要查看 Hive 脚本的输出，请使用以下步骤 -
- 打开 Amazon S3 控制台并选择用于输出数据的 S3 存储桶。
- 选择输出文件夹。
- 查询将结果写入单独的文件夹。选择os_requests.
- 输出存储在一个文本文件中。这个文件可以下载。

以下是 Amazon EMR 的好处 -