Hive提供三种可以改变环境变量的方法,分别是:
(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;
所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xml文件,放在${HIVE_HOME}/conf目录下。里面可以对一些配置进行个性化设定。这里做的配置都全局用户都生效,而且是永久的。
(2)命令行参数;
在启动Hive cli的时候进行配置,可以在命令行添加-hiveconf param=value来设定参数;这一设定对本次启动的会话有效,下次启动需要重新配置。
(3)在已经进入cli时进行参数声明。
可以在HQL中使用SET关键字设定参数,这种配置也是对本次启动的会话有效,下次启动需要重新配置。在HQL中使用SET关键字还可以查看配置的值。
set后面什么都不添加,这样可以查到Hive的所有属性配置。
上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。
服务器和客户端中都要进行配置;
https://www.cnblogs.com/ITtangtang/p/7683028.html
1. 执行计划(Explain)
1)基本语法
EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query
2)案例实操
(1)查看下面这条语句的执行计划
没有生成MR任务的
hive (default)> explain select * from emp;
Fetch Operator
Explain STAGE DEPENDENCIES: Stage-0 is a root stage STAGE PLANS: Stage: Stage-0 Fetch Operator limit: -1 Processor Tree: TableScan alias: emp Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: empno (type: int), ename (type: string), job (type: string), mgr (type: int), hiredate (type: string), sal (type: double), comm (type: double), deptno (type: int) outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7 Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE ListSink
有生成MR任务的
hive (default)> explain select deptno, avg(sal) avg_sal from emp group by deptno;
Map Operator Tree:
Reduce Operator Tree:
Select Operator
File Output Operator
Fetch Operator
Explain STAGE DEPENDENCIES: Stage-1 is a root stage Stage-0 depends on stages: Stage-1 STAGE PLANS: Stage: Stage-1 Map Reduce Map Operator Tree: TableScan alias: emp Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: sal (type: double), deptno (type: int) outputColumnNames: sal, deptno Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE Group By Operator aggregations: sum(sal), count(sal) keys: deptno (type: int) mode: hash outputColumnNames: _col0, _col1, _col2 Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE Reduce Output Operator key expressions: _col0 (type: int) sort order: + Map-reduce partition columns: _col0 (type: int) Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE value expressions: _col1 (type: double), _col2 (type: bigint) Execution mode: vectorized Reduce Operator Tree: Group By Operator aggregations: sum(VALUE._col0), count(VALUE._col1) keys: KEY._col0 (type: int) mode: mergepartial outputColumnNames: _col0, _col1, _col2 Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE Select Operator expressions: _col0 (type: int), (_col1 / _col2) (type: double) outputColumnNames: _col0, _col1 Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE File Output Operator compressed: false Statistics: Num rows: 1 Data size: 7020 Basic stats: COMPLETE Column stats: NONE table: input format: org.apache.hadoop.mapred.SequenceFileInputFormat output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe Stage: Stage-0 Fetch Operator limit: -1 Processor Tree: ListSink
(2)查看详细执行计划
hive (default)> explain extended select * from emp;
hive (default)> explain extended select deptno, avg(sal) avg_sal from emp group by deptno;
2. Fetch抓取
Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文
件,然后输出查询结果到控制台。
在hive-default.xml文件中
hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。
set hive.fetch.task.conversion.threshold=1073741824,可调整阈值,默认1G,小于1G才会使用Fatch抓取模式;
Fetch抓取
set hive.fetch.task.conversion=none;
把hive.fetch.task.conversion设置成none,然后执行查询语句,都会执行mapreduce程序。
select * from emp; // number of mappers: 1; number of reducers: 0
set hive.fetch.task.conversion=more;
把hive.fetch.task.conversion设置成more,然后执行查询语句,如下查询方式都不会执行mapreduce程序。
select * from emp;
3. 本地模式
大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,
有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器
上处理所有的任务。对于小数据集,执行时间可以明显被缩短。
可通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化,默认是false。
set hive.exec.mode.local.auto=true; //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置local mr的最大输入数据量,当输入数据量小于这个值时采用local, mr的方式,默认为134217728,即128M
set hive.exec.mode.local.auto.input.files.max=10; //设置local mr的最大输入文件个数,当输入文件个数小于这个值时采用local, mr的方式,默认为4
当一个job满足如下条件才能真正使用本地模式:
1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
3.job的reduce数必须为0或者1
可用参数hive.mapred.local.mem(默认0)控制child jvm使用的最大内存数。
4. 并行执行
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。
默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整
个job的执行时间缩短。不过,如果有更多的阶段可以并行执行,那么job可能就越快完成。
通过设置参数hive.exec.parallel值为true,就可以开启并发执行。不过,在共享集群中,需要注意下,如果job中并行阶段增多,那么集群利用率就会增加。
set hive.exec.parallel=true; //打开任务并行执行
set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度,默认为8。
当然,得是在系统资源比较空闲的时候才有优势,否则,没资源,并行也起不来。
5. 合理设置Map及Reduce数
Reduce的个数对整个作业的运行性能有很大影响。如果Reduce设置的过大,那么将会产生很多小文件,对NameNode会产生一定的影响,而且整个作业的运行时间未必会减少;如果
Reduce设置的过小,那么单个Reduce处理的数据将会加大,很可能会引起OOM异常。
1)通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。
2)是不是map数越多越好?
答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑
处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。
3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?
答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去
做,肯定也比较耗时。针对上面的问题2和3,我们需要采取两种方式来解决:即减少map数和增加map数;
5.1 复杂文件增加Map数
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。
增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值。让maxSize最大值低于blocksize就可以增
加map的个数。
1.执行查询
hive (default)> select count(*) from emp;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2.设置最大切片值为100个字节
hive (default)> set mapreduce.input.fileinputformat.split.maxsize=100;
hive (default)> select count(*) from emp;
Hadoop job information for Stage-1: number of mappers: 6; number of reducers: 1
5.2 小文件进行合并
配置Map输入合并 -- 每个Map最大输入大小,决定合并后的文件数 set mapred.max.split.size=256000000;
-- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并 set mapred.min.split.size.per.node=100000000;
-- 一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并 set mapred.min.split.size.per.rack=100000000;
-- 执行Map前进行小文件合并; 在map执行前合并小文件,减少map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。
-- HiveInputFormat没有对小文件合并功能。 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 配置在Map-Reduce任务结束时合并小文件 我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: set hive.merge.mapfiles=true //在map-only job后合并文件,默认true,在map-only任务结束时合并小文件
set hive.merge.mapredfiles=true //在map-reduce job后合并文件,默认false,设为true 在map-reduce任务结束时合并小文件
set hive.merge.size.per.task=true //合并后每个文件的大小,默认268435456,合并文件的大小,默认256M
set hive.merge.smallfiles.avgsize=true //平均文件大小,是决定是否执行合并操作的阈值,默认16777216,当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge Hive在对结果文件进行合并时会执行一个额外的map-only脚本,mapper的数量是文件总大小除以size.per.task参数所得的值,触发合并的条件是: 根据查询类型不同,相应的mapfiles/mapredfiles参数需要打开; 结果文件的平均大小需要大于avgsize参数的值。
5.3 合理设置Reduce数
1.调整reduce个数方法一
(1)每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256000000
(2)每个任务最大的reduce数,默认为1009
hive.exec.reducers.max=1009
(3)计算reducer数的公式
N=min(参数2,总输入数据量 / 参数1)
2.调整reduce个数方法二
在hadoop的mapred-default.xml文件中修改
设置每个job的Reduce个数
set mapreduce.job.reduces = 15;
3.reduce个数并不是越多越好
1)过多的启动和初始化reduce也会消耗时间和资源;
2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;
在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;
reduce数量由以下三个参数决定:
- mapred.reduce.tasks ( 强制指定reduce的任务数量,默认为-1 )
- hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为256000000)
- hive.exec.reducers.max(每个任务最大的reduce数,默认为1009)
计算reducer数的公式很简单 N = min ( hive.exec.reducers.max ,总输入数据量/ hive.exec.reducers.bytes.per.reducer )
6. 表的优化
6.1 小表join 大表 MapJoin
将key相对分散,并且数据量小的表放在join的左边,可以使用map join让小的维度表先进内存。在map端完成join。
如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加
载到内存在map端进行join,避免reducer处理。
1.开启MapJoin参数设置
(1)设置自动选择Mapjoin
set hive.auto.convert.join = true; // 默认为true
(2)大表小表的阈值设置(默认25M一下认为是小表):
set hive.mapjoin.smalltable.filesize=25000000;
将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用map join让小的维度表(1000条以下的记录条数)先进内存。
在map端完成reduce。
实际测试发现:新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。
Hive0.11之后 set hive.auto.convert.join=true 默认是true,即开启了map join的优化;
hive.mapjoin.smalltable.filesize=25000000 通过配置该属性来确定使用该优化的表的大小,如果表的大小小于此值(25M)就会被加载进内存中
创建大表、小表、join后的表、加载数据、 hive (default)> create table bigtable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.103 seconds hive (default)> create table smalltable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.109 seconds hive (default)> create table jointable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.486 seconds hive (default)> load data local inpath '/opt/module/datas/bigtable' into table bigtable; Loading data to table default.bigtable Table default.bigtable stats: [numFiles=1, totalSize=120734753] OK Time taken: 1.26 seconds hive (default)> load data local inpath '/opt/module/datas/smalltable' into table smalltable; Loading data to table default.smalltable Table default.smalltable stats: [numFiles=1, totalSize=12018355] OK Time taken: 3.736 seconds hive (default)> set hive.auto.convert.join=false; 关闭mapjoin功能(默认是打开的) 小表join大表 hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from smalltable s left join bigtable b on s.id=b.id; Time taken: 40.392 seconds 大表join小表 hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable b left join smalltable s on b.id=s.id; Time taken: 39.82 seconds