学习使用Apache Hive

HIVE的作用

将数据文件映射为一张表。
将SQL语法解析编译成为MapReduce的执行程序。

Hive架构

HIVE的组件

Hive组件

1.用户接口

包括CLI，JDBC/ODBC、WebGUI。
CLI(Command Line Interface)即命令行，是Hive的默认模式。
HIVE中的Thrift服务器允许外部客户端通过网络与Hive交互，类似于JDBC或ODBC协议。（JDBC/ODBC即Java数据库连接，是Hive的默认模式。
WebGUI是Hive的Web界面，提供给用户友好的操作界面。

2.元数据存储
通常是存储在关系数据库如MySQL、Postgresql等。

3.解释器
将SQL转换为MapReduce任务，最后提交给Hadoop执行。

4.编译器
将SQL编译成可以运行的MapReduce程序。

5.优化器
优化MR程序，转换为执行效率更高的执行计划。

6.执行器
提交MR程序给Hadoop执行，然后返回结果。HIVE支持Mapreduce、Tez和Spark三种执行引擎。

Hive数据模型

文件位置关系
HIVE中的数据模型分为三层：
1.元数据
元数据存储在关系数据库中，如MySQL、Postgresql等。
2.内部表
内部表是Hive默认的表类型，数据存储在HDFS中。
3.外部表
外部表是用户自定义的表类型，数据存储在HDFS中，但元数据存储在Hive的元数据存储中。
Hive与数据库的区别