Hive 教程
-
Hive 教程
Hive是一个数据仓库基础架构工具,用于处理Hadoop中的结构化数据。它驻留在Hadoop之上以汇总大数据,并使查询和分析变得容易。这是一个简短的教程,提供有关如何将Apache Hive HiveQL与Hadoop分布式文件系统一起使用的介绍。本教程可以成为您成为Hive成功的Hadoop开发人员的第一步。Hive最初是由Facebook开发的,后来Apache软件基金会开始使用它,并以Apache Hive的名义将其作为开源进一步开发。它由不同的公司使用。例如,Amazon在Amazon Elastic MapReduce中使用它。 -
Hive 不是
- 关系数据库
- 在线事务处理(OLTP)的设计
- 实时查询和行级更新的语言
-
Hive 的特征
- 它将模式存储在数据库中,并将处理后的数据存储到HDFS中。
- 它是为OLAP设计的。
- 它提供了用于查询的SQL类型语言,称为HiveQL或HQL。
- 它是易于掌握的,快速的,可伸缩的和可扩展的。
-
Hive 的体系结构
以下组件图描述了Hive的体系结构:该组件图包含不同的单元。下表描述了每个单元:- 用户界面(user interfaces) Hive是一种数据仓库基础架构软件,可以在用户和HDFS之间创建交互。Hive支持的用户界面是Hive Web UI,Hive命令行和Hive HD Insight(在Windows服务器中)。
- 元数据存储(meta store) Hive选择各自的数据库服务器来存储表,数据库,表中的列,其数据类型和HDFS映射的架构或元数据。
- HiveQL流程引擎 HiveQL与SQL相似,用于查询Metastore上的架构信息。它是MapReduce程序的传统方法的替代之一。不用用Java编写MapReduce程序,我们可以为MapReduce作业编写查询并进行处理。
- 执行引擎(excute engine) HiveQL流程引擎和MapReduce的结合部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果。它使用了MapReduce的风格。
- HDFS或HBASE Hadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。
-
Hive 的工作
下图描述了Hive和Hadoop之间的工作流程。下表定义了Hive如何与Hadoop框架进行交互:- 执行查询 - Hive接口(例如命令行或Web UI)将查询发送到驱动程序(任何数据库驱动程序,例如JDBC,ODBC等)以执行。
- 获取计划 - 驱动程序借助查询编译器来分析查询,以检查语法和查询计划或查询要求。
- 获取元数据 - 编译器将元数据请求发送到Metastore(任何数据库)。
- 发送元数据 - Metastore将元数据作为对编译器的响应发送。
- 发送计划 - 编译器检查需求,然后将计划重新发送给驱动程序。至此,查询的解析和编译已完成。
- 执行计划 - 驱动程序将执行计划发送到执行引擎。
- 执行工作 - 在内部,执行作业的过程是MapReduce作业。执行引擎将作业发送到“名称”节点中的JobTracker,并将该作业分配给“数据”节点中的TaskTracker。在这里,查询执行MapReduce作业。
- 元数据操作 - 同时,在执行过程中,执行引擎可以使用Metastore执行元数据操作。
- 取得结果 - 执行引擎从数据节点接收结果。
- 发送结果 - 执行引擎将这些结果值发送给驱动程序。
- 发送结果 - 驱动程序将结果发送到Hive接口。
-