Hive提供三种可以改变环境变量的方法,分别是:
(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;
所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xml文件,放在${HIVE_HOME}/conf目录下。里面可以对一些配置进行个性化设定。这里做的配置都全局用户都生效,而且是永久的。
(2)命令行参数;
在启动Hive cli的时候进行配置,可以在命令行添加-hiveconf param=value来设定参数;这一设定对本次启动的会话有效,下次启动需要重新配置。
(3)在已经进入cli时进行参数声明。
可以在HQL中使用SET关键字设定参数,这种配置也是对本次启动的会话有效,下次启动需要重新配置。在HQL中使用SET关键字还可以查看配置的值。
set后面什么都不添加,这样可以查到Hive的所有属性配置。
上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。
服务器和客户端中都要进行配置;
https://www.cnblogs.com/ITtangtang/p/7683028.html
1 Fetch抓取
Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。
在hive-default.xml文件中
hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。
set hive.fetch.task.conversion.threshold=1073741824,可调整阈值,默认1G,小于1G才会使用Fatch抓取模式;
Fetch抓取
set hive.fetch.task.conversion=none; 把hive.fetch.task.conversion设置成none,然后执行查询语句,都会执行mapreduce程序。
select * from emp; // number of mappers: 1; number of reducers: 0 set hive.fetch.task.conversion=more; 把hive.fetch.task.conversion设置成more,然后执行查询语句,如下查询方式都不会执行mapreduce程序。
select * from emp;
2 本地模式
大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,
有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。
可通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化,默认是false。
set hive.exec.mode.local.auto=true; //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置local mr的最大输入数据量,当输入数据量小于这个值时采用local mr的方式,默认为134217728,即128M
set hive.exec.mode.local.auto.input.files.max=10; //设置local mr的最大输入文件个数,当输入文件个数小于这个值时采用local mr的方式,默认为4
当一个job满足如下条件才能真正使用本地模式:
1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
3.job的reduce数必须为0或者1
可用参数hive.mapred.local.mem(默认0)控制child jvm使用的最大内存数。
3 并行执行
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。不过,如果有更多的阶段可以并行执行,那么job可能就越快完成。
通过设置参数hive.exec.parallel值为true,就可以开启并发执行。不过,在共享集群中,需要注意下,如果job中并行阶段增多,那么集群利用率就会增加。
set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度,默认为8。 当然,得是在系统资源比较空闲的时候才有优势,否则,没资源,并行也起不来。
4 合理设置Map及Reduce数
Reduce的个数对整个作业的运行性能有很大影响。如果Reduce设置的过大,那么将会产生很多小文件,对NameNode会产生一定的影响,而且整个作业的运行时间未必会减少;如果Reduce设置的过小,那么单个Reduce处理的数据将会加大,很可能会引起OOM异常。
1)通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。
2)是不是map数越多越好?
答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。
3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?
答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。
针对上面的问题2和3,我们需要采取两种方式来解决:即减少map数和增加map数;
4.1 复杂文件增加Map数
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。
增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。
1.执行查询 hive (default)> select count(*) from emp; Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 2.设置最大切片值为100个字节 hive (default)> set mapreduce.input.fileinputformat.split.maxsize=100; hive (default)> select count(*) from emp; Hadoop job information for Stage-1: number of mappers: 6; number of reducers: 1
4.2 小文件进行合并
配置Map输入合并 -- 每个Map最大输入大小,决定合并后的文件数 set mapred.max.split.size=256000000; -- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并 set mapred.min.split.size.per.node=100000000; -- 一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并 set mapred.min.split.size.per.rack=100000000; -- 执行Map前进行小文件合并; 在map执行前合并小文件,减少map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 配置Hive结果合并 我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: set hive.merge.mapfiles=true 在map-only job后合并文件,默认true,在map-only任务结束时合并小文件 set hive.merge.mapredfiles=true 在map-reduce job后合并文件,默认false,设为true 在map-reduce任务结束时合并小文件 set hive.merge.size.per.task=true 合并后每个文件的大小,默认268435456,合并文件的大小,默认256M set hive.merge.smallfiles.avgsize=true 平均文件大小,是决定是否执行合并操作的阈值,默认16777216,当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge Hive在对结果文件进行合并时会执行一个额外的map-only脚本,mapper的数量是文件总大小除以size.per.task参数所得的值,触发合并的条件是: 根据查询类型不同,相应的mapfiles/mapredfiles参数需要打开; 结果文件的平均大小需要大于avgsize参数的值。
4.3 合理设置Reduce数
1.调整reduce个数方法一
(1)每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256000000
(2)每个任务最大的reduce数,默认为1009
hive.exec.reducers.max=1009
(3)计算reducer数的公式
N=min(参数2,总输入数据量/参数1)
2.调整reduce个数方法二
在hadoop的mapred-default.xml文件中修改
设置每个job的Reduce个数
set mapreduce.job.reduces = 15;
3.reduce个数并不是越多越好
1)过多的启动和初始化reduce也会消耗时间和资源;
2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;
在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;
3 表的优化
3.1 小表join 大表 MapJoin
如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。
1.开启MapJoin参数设置
(1)设置自动选择Mapjoin
set hive.auto.convert.join = true; 默认为true
(2)大表小表的阈值设置(默认25M一下认为是小表):
set hive.mapjoin.smalltable.filesize=25000000;
将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用map join让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。
实际测试发现:新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。
Hive0.11之后 set hive.auto.convert.join=true 默认是true,即开启了map join的优化;
hive.mapjoin.smalltable.filesize=25000000 通过配置该属性来确定使用该优化的表的大小,如果表的大小小于此值(25M)就会被加载进内存中
创建大表、小表、join后的表、加载数据、 hive (default)> create table bigtable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.103 seconds hive (default)> create table smalltable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.109 seconds hive (default)> create table jointable( > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.486 seconds hive (default)> load data local inpath '/opt/module/datas/bigtable' into table bigtable; Loading data to table default.bigtable Table default.bigtable stats: [numFiles=1, totalSize=120734753] OK Time taken: 1.26 seconds hive (default)> load data local inpath '/opt/module/datas/smalltable' into table smalltable; Loading data to table default.smalltable Table default.smalltable stats: [numFiles=1, totalSize=12018355] OK Time taken: 3.736 seconds hive (default)> set hive.auto.convert.join=false; 关闭mapjoin功能(默认是打开的) 小表join大表 hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from smalltable s left join bigtable b on s.id=b.id; Time taken: 40.392 seconds 大表join小表 hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable b left join smalltable s on b.id=s.id; Time taken: 39.82 seconds
3.2 大表Join大表
1.空KEY过滤
有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上,从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下,这些key对应的数据是异常数据,我们需要在SQL语句中进行过滤。例如key对应的字段为空,操作如下:
案例实操
1)配置历史服务器
启动历史服务器
mr-jobhistory-daemon.sh start historyserver
查看jobhistory
http://hadoop103:19888/jobhistory
创建原始表、创建空id表、创建join后的表、分别加载数据 hive (default)> create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\t'; OK Time taken: 0.129 seconds hive (default)> create table nullidtable(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) > row format delimited fields terminated by '\'; OK hive (default)> load data local inpath '/opt/module/datas/nullid' into table nullidtable; //加载数据 测试不过滤空id hive (default)> insert overwrite table jointable select n.* from nullidtable n left join ori o on o.id=n.id; Time taken: 52.863 seconds 测试过滤空id hive (default)> insert overwrite table jointable select n.* from (select * from nullidtable where id is not null) n left join ori o on n.id=o.id; Time taken: 30.157 seconds