数据存储：大数据运算系统（3）--- MapReduce+SQL

1、MapReduce+SQL系统介绍

MapReduce提供了一个分布式应用编写的平台。但是，这仅仅是一个编程的平台，不适合数据分析师的使用；即使最基础的选择和投影操作，也必须写程序来实现。所以，对SQL的需求由此产生。

2、Hive（蜂巢）

管理和处理结构化数据；在Hadoop基础上实现；提供类似SQL的HiveQL语言。

Hive系统如下：

数据存储在HDFS上。HDFS目录：/usr/hive/warehouse/
Table：一个单独的hdfs目录。/hdfs/hive/warehouse/表名。Hive中的Table和数据库中的Table在概念上是类似的。
Table可以进一步划分为Partition。Partition 对应于数据库中的Partition列的密集索引。
Partition可以进一步划分为Bucket。Buckets对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。
Partition：每个Partition是Table目录下的子目录。假设pkey是partition key：/user/hive/warehouse/表名/pkey=value
Bucket：每个Bucket是Partition目录下的一个子目录。假设pkey是partition key，bkey是bucket key：/usr/hive/warehouse/表名/pkey=value/bkey=value
HiveQL：类似SQL，部分SQL和扩展，采用MapReduce扩展。
SerDe：序列化/反序列化。
MetaStore：存储表的定义信息等；默认在本地${HIVE_HOME}/metastore_db中；也可以配置存储在数据库RDBMS系统中。
Hive CLI：命令行客户端，可以执行各种HiveQL命令。

3、Hive数据模型

关系型表+扩展

（1）关系型表：无序记录；每个记录包含多列；每个列可以是原子数据类型。

（2）扩展：（1）可以是更加复杂的类型（2）可以直接读取已有的外部数据，程序员提供一个SerDe的实现。（3）可以表达MapReduce。