【问题标题】:Impala query taking longer time in analyzing and planningImpala 查询在分析和规划中需要更长的时间
【发布时间】:2021-10-28 22:10:01
【问题描述】:

我有两个独立的 Hadoop 集群,Cloudera Hadoop 集群和 Apache Hadoop 集群。 发现 Impala 查询在 Cloudera 上运行得更快,而相同的查询在 Apache Hadoop 集群中运行得更慢。 在查询执行期间发现,与 Cloudera 集群相比,查询在分析和规划阶段花费了大量时间。 我针对堆大小配置调整了 Apache 集群,并尝试保持与 Cloudera 集群中相同的属性和值。

我还需要仔细检查或需要配置一些其他服务、配置吗? 请提出建议。

两个集群中使用了相同的机器硬件配置和相同的实例。

我在 Cloudera 中使用的版本:- hive-common-2.1.1-cdh6.3.2.jar, CDH 6.3.2 和 impalad 3.2.0版

我在 Apache 中使用的版本:- hive-common-2.1.1-cdh6.x-SNAPSHOT.jar, Hadoop 3.0.0 和 黑斑羚 3.4.0

我还添加了一些属性来提高查询性能,但没有用

#Impala 目录服务器

export JAVA_TOOLS_OPTIONS="-Xmx8g"


hive-env.sh
export HIVE_CLIENT_HEAPSIZE=1024
export HIVE_METASTORE_HEAPSIZE=8192
export HIVE_SERVER2_HEAPSIZE=8192
export HADOOP_HEAPSIZE=8192

hdfs-site.xml

<property>
    <name>dfs.client.read.shortcircuit</name>
    <value>true</value>
</property>
<property>
    <name>dfs.domain.socket.path</name>
    <value>/data/var/run/hdfs-sockets/dn</value>
</property>
<property>
    <name>dfs.client.file-block-storage-locations.timeout.millis</name>
    <value>10000</value>
</property>
<property>
  <name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
  <value>true</value>
</property>

【问题讨论】:

  • 需要额外的配置。 Hive 元存储版本?等等。
  • 在 Apache 集群 hive-common-2.1.1-cdh6.x-SNAPSHOT.jar 在 Cloudera 集群 hive-common-2.1.1-cdh6.3.2.jar 上

标签: hadoop cloudera impala hive-metastore


【解决方案1】:

我对两个集群比较的建议: 1- 检查目录服务器堆大小和 stestore 堆大小。 2-检查查询协调器 mem_limit。 3-检查 hdfs namenode 堆大小。 4-检查impalad上的短路读数是否正确。 5-检查配置单元元存储堆大小。还;两个集群的失效速度有什么区别? hdfs命令文件在两个集群上列出的时间呢?

【讨论】:

  • 添加了一些属性并调整了堆大小,但没有用。帖子中提到的细节
  • 想分享 Impala 查询的详细“摘要”。如何分享
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多