Impala 查询在分析和规划中需要更长的时间答案

【问题标题】：Impala query taking longer time in analyzing and planningImpala 查询在分析和规划中需要更长的时间
【发布时间】：2021-10-28 22:10:01
【问题描述】：

我有两个独立的 Hadoop 集群，Cloudera Hadoop 集群和 Apache Hadoop 集群。发现 Impala 查询在 Cloudera 上运行得更快，而相同的查询在 Apache Hadoop 集群中运行得更慢。在查询执行期间发现，与 Cloudera 集群相比，查询在分析和规划阶段花费了大量时间。我针对堆大小配置调整了 Apache 集群，并尝试保持与 Cloudera 集群中相同的属性和值。

我还需要仔细检查或需要配置一些其他服务、配置吗？请提出建议。

两个集群中使用了相同的机器硬件配置和相同的实例。

我在 Cloudera 中使用的版本：- hive-common-2.1.1-cdh6.3.2.jar， CDH 6.3.2 和 impalad 3.2.0版

我在 Apache 中使用的版本：- hive-common-2.1.1-cdh6.x-SNAPSHOT.jar， Hadoop 3.0.0 和黑斑羚 3.4.0

我还添加了一些属性来提高查询性能，但没有用

#Impala 目录服务器

export JAVA_TOOLS_OPTIONS="-Xmx8g"


hive-env.sh
export HIVE_CLIENT_HEAPSIZE=1024
export HIVE_METASTORE_HEAPSIZE=8192
export HIVE_SERVER2_HEAPSIZE=8192
export HADOOP_HEAPSIZE=8192

hdfs-site.xml

<property>
    <name>dfs.client.read.shortcircuit</name>
    <value>true</value>
</property>
<property>
    <name>dfs.domain.socket.path</name>
    <value>/data/var/run/hdfs-sockets/dn</value>
</property>
<property>
    <name>dfs.client.file-block-storage-locations.timeout.millis</name>
    <value>10000</value>
</property>
<property>
  <name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
  <value>true</value>
</property>

【问题讨论】：

需要额外的配置。 Hive 元存储版本？等等。
在 Apache 集群 hive-common-2.1.1-cdh6.x-SNAPSHOT.jar 在 Cloudera 集群 hive-common-2.1.1-cdh6.3.2.jar 上

标签： hadoop cloudera impala hive-metastore

【解决方案1】：

我对两个集群比较的建议： 1- 检查目录服务器堆大小和 stestore 堆大小。 2-检查查询协调器 mem_limit。 3-检查 hdfs namenode 堆大小。 4-检查impalad上的短路读数是否正确。 5-检查配置单元元存储堆大小。还;两个集群的失效速度有什么区别？ hdfs命令文件在两个集群上列出的时间呢？

【讨论】：

添加了一些属性并调整了堆大小，但没有用。帖子中提到的细节
想分享 Impala 查询的详细“摘要”。如何分享