1、hive是什么?

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

Hive是一个构建在Hadoop之上的数据仓库,提供类似sql的查询语句HiveQL对数据进行分析处理。Hive将HiveQL语句转换一系列成MapReduce作业并执行。目前,Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两中分布式计算引擎。常用于离线批处理。

2、hive产生背景

  1)mapreduce编程繁琐性:一个标准的mapreduce程序包括Mapper、Reducer、Driver。写完mr程序后还要打包成jar包丢到集群上运行。更改需求之后可能需要更改大量代码,重新打包上传,十分不便。

2)使用SQL对hdfs上的数据进行统计分析显然要好过写代码,而我们同时有用来大量的DBA从业人员。

3、hive和RDBMS的关系?

hive与RDBMS仅仅是语法类似,一毛钱关系都没有。

4、hive底层支持的引擎有哪些?

有三个:MapReduce、Tez、spark。

5、RDBMS和hive的比较。

hive处理的数据较大,PB级数据都行。RDBMS处理数据较少。

hive实时性较差,一个hive的作业跑八个小时都可能跑不完。hive也支持事务(0.14版本开始支持)。

RDBMS也支持分布式、但节点数较少,构建在专用的机器上,成本昂贵。

6、为什么要使用hive?

1)方便易用

2)弹性,算力不足简单加机器就行。

3)统一的元数据管理:

对于Hive/Impala/Spark SQL/Presto,在其中之一上创建一张表,在其他任意一个上都可以使用。

好处:移植方便。

7、hive中的数据保存在hdfs上,元数据保默认保存在自带的Derby数据库中,我们可以更改其默认的元数据库为MySQL,生产上也是这样做的。

8、hive的四种连接方式:

[Hive01]Hive入门


相关文章:

  • 2022-01-30
  • 2022-12-23
  • 2021-10-24
  • 2021-07-07
  • 2018-01-15
  • 2021-06-19
猜你喜欢
  • 2021-07-03
  • 2021-04-14
  • 2021-04-01
  • 2021-10-22
相关资源
相似解决方案