Hive(1) Hive介绍以及Hive架构详解

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能, 是一种大数据离线分析工具

Hive的底层就是将类SQL语句转换成MapReduce

Hive提供了一系列的工具, 可以用来进行数据提取, 转化, 加载(ETL Extract-Transform-Load)

数据库属于OLTP, 涵盖了企业大部分的日常操作，如购物、库存、制造、银行、工资、注册、记账等, 比如Mysql，oracle等关系型数据库

OLTP是面向用户的、用于程序员的事务处理以及客户的查询处理

OLTP系统的访问由于要保证原子性，所以有事务机制和恢复机制

OLTP系统具有较强的事务

主要用于分析数据, Hive, HBase都属于OLAP

OLAP是面向市场的，用于知识工人（经理、主管和数据分析人员）的数据分析

OLAP通常会集成多个异构数据源的数据，数量巨大

OLAP系统一般存储的是历史数据，所以大部分都是只读操作，不需要事务

Hive(1) Hive介绍以及Hive架构详解

Hive(1) Hive介绍以及Hive架构详解

即用户接口, 其中包括CLI（command-line interface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等

注意

HIve默认的元数据存储在自带derby数据库中, 但是不推荐使用derby数据库, 可以自定义成MySQL数据库存储

Hive基于HDFS存储, 将类SQL语句翻译成MapReduce在Yarn上运行

这里注意，执行器在执行方案时，会进行判断：如果当前方案不涉及到MapReduce组件，比如为表添加分区信息、比如字符串操作等，比如简单的查询操作等，此时就会直接和元数据库交互，然后去HDFS上去找具体数据

如果涉及到计算或者复杂的查询, 就需要将HQL语句转换成MapReduce去执行