Hive提供三种可以改变环境变量的方法,分别是:

(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;

      所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xml文件,放在${HIVE_HOME}/conf目录下。里面可以对一些配置进行个性化设定。这里做的配置都全局用户都生效,而且是永久的

(2)命令行参数;

在启动Hive cli的时候进行配置,可以在命令行添加-hiveconf param=value来设定参数;这一设定对本次启动的会话有效,下次启动需要重新配置。

(3)在已经进入cli时进行参数声明。

可以在HQL中使用SET关键字设定参数,这种配置也是对本次启动的会话有效,下次启动需要重新配置。在HQL中使用SET关键字还可以查看配置的值。

  set后面什么都不添加,这样可以查到Hive的所有属性配置。

上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。

   Hive参数调优

 

  服务器和客户端中都要进行配置;

https://www.cnblogs.com/ITtangtang/p/7683028.html

1 Fetch抓取

Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。

hive-default.xml文件中

   hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。

   set hive.fetch.task.conversion.threshold=1073741824,可调整阈值,默认1G,小于1G才会使用Fatch抓取模式;

Fetch抓取
 set hive.fetch.task.conversion=none;  把hive.fetch.task.conversion设置成none,然后执行查询语句,都会执行mapreduce程序。
 select * from emp;  // number of mappers: 1; number of reducers: 0 set hive.fetch.task.conversion=more;   把hive.fetch.task.conversion设置成more,然后执行查询语句,如下查询方式都不会执行mapreduce程序。
 select * from emp;

2 本地模式

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,

有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。

可通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化,默认是false。

set hive.exec.mode.local.auto=true;  //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000; //设置local mr的最大输入数据量,当输入数据量小于这个值时采用local  mr的方式,默认为134217728,即128M
set hive.exec.mode.local.auto.input.files.max=10;   //设置local mr的最大输入文件个数,当输入文件个数小于这个值时采用local mr的方式,默认为4
当一个job满足如下条件才能真正使用本地模式:
  1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
  2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
  3.job的reduce数必须为0或者1
可用参数hive.mapred.local.mem(默认0)控制child jvm使用的最大内存数。

3 并行执行

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。不过,如果有更多的阶段可以并行执行,那么job可能就越快完成。

       通过设置参数hive.exec.parallel值为true,就可以开启并发执行。不过,在共享集群中,需要注意下,如果job中并行阶段增多,那么集群利用率就会增加。

set hive.exec.parallel=true;              //打开任务并行执行
set hive.exec.parallel.thread.number=16;  //同一个sql允许最大并行度,默认为8。
当然,得是在系统资源比较空闲的时候才有优势,否则,没资源,并行也起不来。

 

4 合理设置Map及Reduce数

Reduce的个数对整个作业的运行性能有很大影响。如果Reduce设置的过大,那么将会产生很多小文件,对NameNode会产生一定的影响,而且整个作业的运行时间未必会减少;如果Reduce设置的过小,那么单个Reduce处理的数据将会加大,很可能会引起OOM异常。

1)通常情况下,作业会通过input的目录产生一个或者多个map任务。

主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。

2)是不是map数越多越好?

答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。

3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?

答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。

针对上面的问题2和3,我们需要采取两种方式来解决:即减少map数和增加map数;

4.1 复杂文件增加Map数

当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。

增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。

Hive参数调优
1.执行查询
hive (default)> select count(*) from emp;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

2.设置最大切片值为100个字节
hive (default)> set mapreduce.input.fileinputformat.split.maxsize=100;
hive (default)> select count(*) from emp;
Hadoop job information for Stage-1: number of mappers: 6; number of reducers: 1
Hive参数调优

4.2 小文件进行合并

Hive参数调优
配置Map输入合并
-- 每个Map最大输入大小,决定合并后的文件数
set mapred.max.split.size=256000000;
-- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并
set mapred.min.split.size.per.node=100000000;
-- 一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并
set mapred.min.split.size.per.rack=100000000;
-- 执行Map前进行小文件合并; 在map执行前合并小文件,减少map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 
 
配置Hive结果合并
我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并:
set hive.merge.mapfiles=true 在map-only job后合并文件,默认true,在map-only任务结束时合并小文件
set hive.merge.mapredfiles=true 在map-reduce job后合并文件,默认false,设为true  在map-reduce任务结束时合并小文件
set hive.merge.size.per.task=true 合并后每个文件的大小,默认268435456,合并文件的大小,默认256M
set hive.merge.smallfiles.avgsize=true 平均文件大小,是决定是否执行合并操作的阈值,默认16777216,当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge

Hive在对结果文件进行合并时会执行一个额外的map-only脚本,mapper的数量是文件总大小除以size.per.task参数所得的值,触发合并的条件是:
  根据查询类型不同,相应的mapfiles/mapredfiles参数需要打开;
  结果文件的平均大小需要大于avgsize参数的值。
Hive参数调优

4.3 合理设置Reduce数

1.调整reduce个数方法一

(1)每个Reduce处理的数据量默认是256MB

  hive.exec.reducers.bytes.per.reducer=256000000

(2)每个任务最大的reduce数,默认为1009

  hive.exec.reducers.max=1009

(3)计算reducer数的公式

  N=min(参数2,总输入数据量/参数1)

2.调整reduce个数方法二

  在hadoop的mapred-default.xml文件中修改

  设置每个job的Reduce个数

  set mapreduce.job.reduces = 15;

3.reduce个数并不是越多越好

  1)过多的启动和初始化reduce也会消耗时间和资源;

  2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;

  在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;

 

 

3 表的优化

 3.1 小表join 大表 MapJoin

如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。

1.开启MapJoin参数设置

(1)设置自动选择Mapjoin

set hive.auto.convert.join = true; 默认为true

(2)大表小表的阈值设置(默认25M一下认为是小表):

set hive.mapjoin.smalltable.filesize=25000000;

key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用map join让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。

实际测试发现:新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。

Hive0.11之后 set hive.auto.convert.join=true 默认是true,即开启了map join的优化;

hive.mapjoin.smalltable.filesize=25000000   通过配置该属性来确定使用该优化的表的大小,如果表的大小小于此值(25M)就会被加载进内存中

创建大表、小表、join后的表、加载数据、
hive (default)> create table bigtable(
              > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string)
              > row format delimited fields terminated by '\t';
OK
Time taken: 0.103 seconds
hive (default)> create table smalltable(
              > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string)
              > row format delimited fields terminated by '\t';
OK
Time taken: 0.109 seconds
hive (default)> create table jointable(
              > id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string)
              > row format delimited fields terminated by '\t';
OK
Time taken: 0.486 seconds
hive (default)> load data local inpath '/opt/module/datas/bigtable' into table bigtable;
Loading data to table default.bigtable
Table default.bigtable stats: [numFiles=1, totalSize=120734753]
OK
Time taken: 1.26 seconds
hive (default)> load data local inpath '/opt/module/datas/smalltable' into table smalltable;
Loading data to table default.smalltable
Table default.smalltable stats: [numFiles=1, totalSize=12018355]
OK
Time taken: 3.736 seconds
hive (default)> set hive.auto.convert.join=false; 关闭mapjoin功能(默认是打开的)
小表join大表
hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from smalltable s left join bigtable b on s.id=b.id;
Time taken: 40.392 seconds
大表join小表
hive (default)> insert overwrite table jointable select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url from bigtable b left join smalltable s on b.id=s.id;
Time taken: 39.82 seconds
View Code

 

3.2 大表Join大表

1.空KEY过滤

有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上,从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下,这些key对应的数据是异常数据,我们需要在SQL语句中进行过滤。例如key对应的字段为空,操作如下:

案例实操

  1)配置历史服务器

启动历史服务器

 mr-jobhistory-daemon.sh start historyserver

查看jobhistory

http://hadoop103:19888/jobhistory

创建原始表、创建空id表、创建join后的表、分别加载数据
hive (default)> create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string)
              > row format delimited fields terminated by '\t';
OK
Time taken: 0.129 seconds
hive (default)> create table nullidtable(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string)
              > row format delimited fields terminated by '\';
OK
hive (default)> load data local inpath '/opt/module/datas/nullid' into table nullidtable; //加载数据
测试不过滤空id

hive (default)> insert overwrite table jointable select n.* from nullidtable n left join ori o on o.id=n.id;
Time taken: 52.863 seconds
测试过滤空id
hive (default)> insert overwrite table jointable select n.* from (select * from nullidtable where id is not null) n left join ori o on n.id=o.id;
Time taken: 30.157 seconds
View Code

相关文章:

  • 2021-05-15
  • 2021-05-02
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-15
  • 2022-12-23
猜你喜欢
  • 2021-07-31
  • 2022-01-27
  • 2021-12-19
  • 2022-02-16
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案