1、MapReduce+SQL系统介绍
MapReduce提供了一个分布式应用编写的平台。但是,这仅仅是一个编程的平台,不适合数据分析师的使用;即使最基础的选择和投影操作,也必须写程序来实现。所以,对SQL的需求由此产生。

2、Hive(蜂巢)
管理和处理结构化数据;在Hadoop基础上实现;提供类似SQL的HiveQL语言。
Hive系统如下:
数据存储:大数据运算系统(3)--- MapReduce+SQL
  • 数据存储在HDFS上。HDFS目录:/usr/hive/warehouse/
  • Table:一个单独的hdfs目录。/hdfs/hive/warehouse/表名。Hive中的Table和数据库中的Table在概念上是类似的。
  • Table可以进一步划分为Partition。Partition 对应于数据库中的Partition列的密集索引。
  • Partition可以进一步划分为Bucket。Buckets对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。
  • Partition:每个Partition是Table目录下的子目录。假设pkey是partition key:/user/hive/warehouse/表名/pkey=value
  • Bucket:每个Bucket是Partition目录下的一个子目录。假设pkey是partition key,bkey是bucket key:/usr/hive/warehouse/表名/pkey=value/bkey=value
  • HiveQL:类似SQL,部分SQL和扩展,采用MapReduce扩展
  • SerDe:序列化/反序列化。
  • MetaStore存储表的定义信息等;默认在本地${HIVE_HOME}/metastore_db中;也可以配置存储在数据库RDBMS系统中。
  • Hive CLI:命令行客户端,可以执行各种HiveQL命令。

3、Hive数据模型
关系型表+扩展
(1)关系型表:无序记录;每个记录包含多列;每个列可以是原子数据类型。
(2)扩展:(1)可以是更加复杂的类型(2)可以直接读取已有的外部数据,程序员提供一个SerDe的实现。(3)可以表达MapReduce

相关文章:

  • 2022-01-08
  • 2021-07-14
  • 2021-07-09
  • 2021-07-26
  • 2021-07-27
  • 2021-10-06
  • 2021-12-20
  • 2022-12-23
猜你喜欢
  • 2021-09-05
  • 2021-08-19
  • 2021-06-29
  • 2021-10-06
  • 2021-10-29
  • 2021-04-05
相关资源
相似解决方案