【发布时间】:2021-10-28 22:10:01
【问题描述】:
我有两个独立的 Hadoop 集群,Cloudera Hadoop 集群和 Apache Hadoop 集群。 发现 Impala 查询在 Cloudera 上运行得更快,而相同的查询在 Apache Hadoop 集群中运行得更慢。 在查询执行期间发现,与 Cloudera 集群相比,查询在分析和规划阶段花费了大量时间。 我针对堆大小配置调整了 Apache 集群,并尝试保持与 Cloudera 集群中相同的属性和值。
我还需要仔细检查或需要配置一些其他服务、配置吗? 请提出建议。
两个集群中使用了相同的机器硬件配置和相同的实例。
我在 Cloudera 中使用的版本:- hive-common-2.1.1-cdh6.3.2.jar, CDH 6.3.2 和 impalad 3.2.0版
我在 Apache 中使用的版本:- hive-common-2.1.1-cdh6.x-SNAPSHOT.jar, Hadoop 3.0.0 和 黑斑羚 3.4.0
我还添加了一些属性来提高查询性能,但没有用
#Impala 目录服务器
export JAVA_TOOLS_OPTIONS="-Xmx8g"
hive-env.sh
export HIVE_CLIENT_HEAPSIZE=1024
export HIVE_METASTORE_HEAPSIZE=8192
export HIVE_SERVER2_HEAPSIZE=8192
export HADOOP_HEAPSIZE=8192
hdfs-site.xml
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.domain.socket.path</name>
<value>/data/var/run/hdfs-sockets/dn</value>
</property>
<property>
<name>dfs.client.file-block-storage-locations.timeout.millis</name>
<value>10000</value>
</property>
<property>
<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
<value>true</value>
</property>
【问题讨论】:
-
需要额外的配置。 Hive 元存储版本?等等。
-
在 Apache 集群 hive-common-2.1.1-cdh6.x-SNAPSHOT.jar 在 Cloudera 集群 hive-common-2.1.1-cdh6.3.2.jar 上
标签: hadoop cloudera impala hive-metastore