【问题标题】:.sparkstaging directory in hdfs is not deletedhdfs 中的 .sparkstaging 目录没有被删除
【发布时间】:2015-04-09 00:21:29
【问题描述】:

我们正在运行某些 spark 作业,并且我们看到 hdfs 中的 .sparkstaging 指导在作业完成后仍然存在。 是否需要设置任何参数才能在作业完成后删除暂存目录?

spark.yarn.preserve.staging.files 默认为 false,因此我们没有明确设置它。 我们正在使用 hortonworks 和 spark 版本 1.2 在纱线上运行 spark

问候, 馒头

【问题讨论】:

  • 旧线程,但我只是偶然发现了类似的东西,对我来说,.sparkStaging 目录持续存在的原因是,如果 YARN 应用程序获取KILLED,该目录不会被删除。如果您有很多应用程序无论出于何种原因获得KILLED,其中很多都可以永久存在。

标签: apache-spark


【解决方案1】:

请检查作业完成控制台输出中的以下日志事件,以更深入地了解正在发生的事情:

  1. ApplicationMaster: Deleting staging directory .sparkStaging/application_xxxxxx_xxxx - 这意味着应用程序能够成功清理暂存目录
  2. ApplicationMaster: Staging directory is null - 这意味着应用程序无法找到此应用程序的暂存目录
  3. ApplicationMaster: Failed to cleanup staging dir .sparkStaging/application_xxxxxx_xxxx - 这意味着删除暂存目录时出了点问题

您能否再次检查集群中可能影响您提到的场景的这些属性:spark.yarn.preserve.staging.files 和这个SPARK_YARN_STAGING_DIR

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-10
    • 1970-01-01
    • 2014-10-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多