【问题标题】:Why Impala spend a lot of time Opening HDFS File (TotalRawHdfsOpenFileTime)?为什么 Impala 花费大量时间打开 HDFS 文件 (TotalRawHdfsOpenFileTime)?
【发布时间】:2020-12-03 22:24:33
【问题描述】:

我发现我的 Impala swarm 性能不稳定,一般只需要几秒(不到 10 秒)就可以完成一个查询,但偶尔会超过 40 秒(这种情况会持续几分钟),当发生这种情况时,根据配置文件,TotalRawHdfsOpenFileTime 非常高,这意味着大部分时间都花在打开 HDFS 文件上。

那么可能的原因是什么,我该如何解决呢?

【问题讨论】:

    标签: hdfs olap impala namenode


    【解决方案1】:

    这是打开文件所花费的时间。如果您正在查询 HDFS,这通常意味着它需要花费时间从 namenode 获取数据。

    通过启用文件句柄缓存,我们看到许多遇到此瓶颈的生产部署得到了显着改进 - https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache

    【讨论】:

    • 非常感谢。您能否告诉我有关如何诊断打开文件过程的更多详细信息?我问过HDFS NameNode的SA,他发现服务器端日志没有异常,Impala端(NN的客户端)有详细的日志吗?
    • TotalRawHdfsOpenFileTime 告诉我们打开文件花费了很多时间。 CachedFileHandlesMissCount 将告诉您必须打开文件的次数。根据列数等,单个文件可以多次打开。我们已经看到当表中有很多文件,很多列,或者执行 NN RPC 时有些慢(可能是网络, namenode 性能,或类似获取 Kerberos 票证以连接到 NN)。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-01-10
    • 2015-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-02-24
    相关资源
    最近更新 更多