Apache Spark s3a 提交者 - 线程堆栈 - 内存不足问题答案

【问题标题】：Apache Spark s3a committer - thread stack - out of memory issuesApache Spark s3a 提交者 - 线程堆栈 - 内存不足问题
【发布时间】：2022-01-02 04:06:33
【问题描述】：

我真的需要一些帮助：

我们正在使用 Spark3.1.2 和独立集群。自从我们开始使用 s3a 目录提交器后，我们的 Spark 作业稳定性和性能显着提高！

然而，最近几天我们对解决这个 s3a 目录提交程序问题感到完全困惑，想知道您是否知道发生了什么？

我们的 spark 作业因 Java OOM（或者更确切地说是进程限制）错误而失败：

 An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.

: java.lang.OutOfMemoryError: unable to create native thread: possibly out of memory or process/resource limits reached
    at java.base/java.lang.Thread.start0(Native Method)
    at java.base/java.lang.Thread.start(Thread.java:803)
    at java.base/java.util.concurrent.ThreadPoolExecutor.addWorker(ThreadPoolExecutor.java:937)
    at java.base/java.util.concurrent.ThreadPoolExecutor.execute(ThreadPoolExecutor.java:1343)
    at java.base/java.util.concurrent.AbstractExecutorService.submit(AbstractExecutorService.java:118)
    at java.base/java.util.concurrent.Executors$DelegatedExecutorService.submit(Executors.java:714)
    at org.apache.spark.rpc.netty.DedicatedMessageLoop.$anonfun$new$1(MessageLoop.scala:174)
    at org.apache.spark.rpc.netty.DedicatedMessageLoop.$anonfun$new$1$adapted(MessageLoop.scala:173)
    at scala.collection.immutable.Range.foreach(Range.scala:158)
    at org.apache.spark.rpc.netty.DedicatedMessageLoop.<init>(MessageLoop.scala:173)
    at org.apache.spark.rpc.netty.Dispatcher.liftedTree1$1(Dispatcher.scala:75)
    at org.apache.spark.rpc.netty.Dispatcher.registerRpcEndpoint(Dispatcher.scala:72)
    at org.apache.spark.rpc.netty.NettyRpcEnv.setupEndpoint(NettyRpcEnv.scala:136)
    at org.apache.spark.storage.BlockManager.<init>(BlockManager.scala:231)
    at org.apache.spark.SparkEnv$.create(SparkEnv.scala:394)
    at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:189)
    at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:277)
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:458)
    at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
    at java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at java.base/jdk.internal.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.base/java.lang.reflect.Constructor.newInstance(Constructor.java:490)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:238)
    at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
    at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.base/java.lang.Thread.run(Thread.java:834)

Spark Thread Dump 在 spark 驱动程序上显示超过 5000 个提交者线程！这是一个例子：

Thread ID   Thread Name Thread State    Thread Locks
1047    s3-committer-pool-0 WAITING 
1449    s3-committer-pool-0 WAITING 
1468    s3-committer-pool-0 WAITING 
1485    s3-committer-pool-0 WAITING 
1505    s3-committer-pool-0 WAITING 
1524    s3-committer-pool-0 WAITING 
1529    s3-committer-pool-0 WAITING 
1544    s3-committer-pool-0 WAITING 
1549    s3-committer-pool-0 WAITING 
1809    s3-committer-pool-0 WAITING 
1972    s3-committer-pool-0 WAITING 
1998    s3-committer-pool-0 WAITING 
2022    s3-committer-pool-0 WAITING 
2043    s3-committer-pool-0 WAITING 
2416    s3-committer-pool-0 WAITING 
2453    s3-committer-pool-0 WAITING 
2470    s3-committer-pool-0 WAITING 
2517    s3-committer-pool-0 WAITING 
2534    s3-committer-pool-0 WAITING 
2551    s3-committer-pool-0 WAITING 
2580    s3-committer-pool-0 WAITING 
2597    s3-committer-pool-0 WAITING 
2614    s3-committer-pool-0 WAITING 
2631    s3-committer-pool-0 WAITING 
2726    s3-committer-pool-0 WAITING 
2743    s3-committer-pool-0 WAITING 
2763    s3-committer-pool-0 WAITING 
2780    s3-committer-pool-0 WAITING 
2819    s3-committer-pool-0 WAITING 
2841    s3-committer-pool-0 WAITING 
2858    s3-committer-pool-0 WAITING 
2875    s3-committer-pool-0 WAITING 
2925    s3-committer-pool-0 WAITING 
2942    s3-committer-pool-0 WAITING 
2963    s3-committer-pool-0 WAITING 
2980    s3-committer-pool-0 WAITING 
3020    s3-committer-pool-0 WAITING 
3037    s3-committer-pool-0 WAITING 
3055    s3-committer-pool-0 WAITING 
3072    s3-committer-pool-0 WAITING 
3127    s3-committer-pool-0 WAITING 
3144    s3-committer-pool-0 WAITING 
3163    s3-committer-pool-0 WAITING 
3180    s3-committer-pool-0 WAITING 
3222    s3-committer-pool-0 WAITING 
3242    s3-committer-pool-0 WAITING 
3259    s3-committer-pool-0 WAITING 
3278    s3-committer-pool-0 WAITING 
3418    s3-committer-pool-0 WAITING 
3435    s3-committer-pool-0 WAITING 
3452    s3-committer-pool-0 WAITING 
3469    s3-committer-pool-0 WAITING 
3486    s3-committer-pool-0 WAITING 
3491    s3-committer-pool-0 WAITING 
3501    s3-committer-pool-0 WAITING 
3508    s3-committer-pool-0 WAITING 
4029    s3-committer-pool-0 WAITING 
4093    s3-committer-pool-0 WAITING 
4658    s3-committer-pool-0 WAITING 
4666    s3-committer-pool-0 WAITING 
4907    s3-committer-pool-0 WAITING 
5102    s3-committer-pool-0 WAITING 
5119    s3-committer-pool-0 WAITING 
5158    s3-committer-pool-0 WAITING 
5175    s3-committer-pool-0 WAITING 
5192    s3-committer-pool-0 WAITING 
5209    s3-committer-pool-0 WAITING 
5226    s3-committer-pool-0 WAITING 
5395    s3-committer-pool-0 WAITING 
5634    s3-committer-pool-0 WAITING 
5651    s3-committer-pool-0 WAITING 
5668    s3-committer-pool-0 WAITING 
5685    s3-committer-pool-0 WAITING 
5702    s3-committer-pool-0 WAITING 
5722    s3-committer-pool-0 WAITING 
5739    s3-committer-pool-0 WAITING 
6144    s3-committer-pool-0 WAITING 
6167    s3-committer-pool-0 WAITING 
6289    s3-committer-pool-0 WAITING 
6588    s3-committer-pool-0 WAITING 
6628    s3-committer-pool-0 WAITING 
6645    s3-committer-pool-0 WAITING 
6662    s3-committer-pool-0 WAITING 
6675    s3-committer-pool-0 WAITING 
6692    s3-committer-pool-0 WAITING 
6709    s3-committer-pool-0 WAITING 
7049    s3-committer-pool-0 WAITING

这是考虑到我们的设置不允许超过 100 个线程... 或者我们有什么不明白的……

这是我们的配置和设置：

fs.s3a.threads.max  100 
fs.s3a.connection.maximum  1000 
fs.s3a.committer.threads 16   
fs.s3a.max.total.tasks  5
fs.s3a.committer.name   directory
fs.s3a.fast.upload.buffer                 disk
io.file.buffer.size                                1048576
mapreduce.outputcommitter.factory.scheme.s3a    - org.apache.hadoop.fs.s3a.commit.S3ACommitterFactory

我们尝试了不同版本的 spark Hadoop 云库，但问题始终相同。

https://repository.cloudera.com/content/repositories/releases/org/apache/spark/spark-hadoop-cloud_2.11/2.4.0-cdh6.3.2/spark-hadoop-cloud_2.11-2.4.0-cdh6.3.2.jar

https://repository.cloudera.com/artifactory/libs-release-local/org/apache/spark/spark-hadoop-cloud_2.11/2.4.0.7.0.3.0-79/spark-hadoop-cloud_2.11-2.4.0.7.0.3.0-79.jar

https://repo1.maven.org/maven2/org/apache/spark/spark-hadoop-cloud_2.12/3.2.0/spark-hadoop-cloud_2.12-3.2.0.jar

https://repository.cloudera.com/artifactory/libs-release-local/org/apache/spark/spark-hadoop-cloud_2.12/3.1.2.7.2.12.0-291/spark-hadoop-cloud_2.12-3.1.2.7.2.12.0-291.jar

如果您能指出我们正确的方向，我们将不胜感激？？？？

感谢您的宝贵时间！

【问题讨论】：

你有多少空间：${fs.s3a.committer.staging.tmp.path}/${user}？
您能否在集群中使用的所有机器上添加：“ulimit -Hn”的输出。 docs.cloudera.com/HDPDocuments/HDP2/HDP-2.6.1/bk_security/…
ulimit -Hn 1048576 ${fs.s3a.committer.staging.tmp.path} 是 3TB 的 HDFS 文件系统 - 为空。
你能添加你的配置吗：fs.s3a.buffer.dir 是否和 fs.s3a.committer.staging.tmp.path 一样？
尝试减少：线程数 fs.s3a.threads.max 20 问题有变化吗？

标签： java apache-spark hadoop amazon-s3 pyspark

【解决方案1】：

将是HADOOP-16570 S3A 提交者在大规模提交作业/任务时泄漏线程/引发 OOM

升级到 hadoop-3.3.0 二进制文件以进行修复。理想情况下到 3.3.1 修复一些其他问题，尤其是来自 spark 的重复 jobID。不确定该修复程序可以追溯到 CDH 版本多远；如果你现在真的需要，我可以解决。当然不是 CDH6.x

【讨论】：

非常感谢！事实上，我们所做的一切都无济于事。
我们现在的问题是寻找正确的驱动程序 - 我们在哪里可以获取相关版本的 spark-cloud jar？此驱动程序是否适用于 Spark 3.1.2：mvnrepository.com/artifact/org.apache.spark/… ??
spark cloud jar 必须是您的 spark 发行版的那个；它只是一个瘦绑定类
嗨，我们正在尝试在与 Hadoop 3.2 捆绑在一起的 Spark 3.1.2 上启用此功能。为 3.3.1 和 Hadoop 3.2 库一起提供 spark-hadoop-cloud 是否安全？（我们正在尝试使用未捆绑的版本，并且遇到了 Zookeeper 馆长库与 Guava 不匹配的问题。更快的方法是使用捆绑的版本，只需添加 3.3.1 的提交者。它会工作吗？）。谢谢！
线程泄漏在hadoop-aws；它应该只是需要更新的 hadoop-*。

【解决方案2】：

查看 this article 以了解 S3A 的调整。

具体来说，即使它归类为数组，我也会看一下：

您可能需要仔细调整以降低内存不足的风险，尤其是当数据缓冲在内存中时。有一个可以调整的参数个数：

文件系统中可用于数据的线程总数上传或任何其他排队的文件系统操作。这是设置在 fs.s3a.threads.max.

可以排队等待执行的操作数，等待一个线。这是在 fs.s3a.max.total.tasks 中设置的。

单个输出流可以激活的块数（即被线程上传或在文件系统中排队线程队列）。这是在 fs.s3a.fast.upload.active.blocks 中设置的。

空闲线程可以在线程池中停留的时间长度在它退役之前。这是在 fs.s3a.threads.keepalivetime 中设置的。

我认为您可能会发现减少线程数会消除内存压力。

我还建议你调整fs.s3a.fast.upload.active.blocks 它也可以减轻内存压力。我认为减少线程数应该是您的第一步，因为 100 有点激进。您可能会受到带宽的限制，而额外的线程可能除了消耗内存之外什么都不做。

【讨论】：

你知道驱动线程是干什么用的吗？如果我理解正确，配置线程应该是为工人准备的。驱动线程有什么用？
查看 s3 committer 文档。（不是 100% 相同，但学习 s3 和 spark 的好地方）链接如下。它提出了文件与驱动程序通信并提交的想法。我们不知道这个文件写入是否相同，但它似乎合乎逻辑，因为驱动程序是唯一知道作业成功/失败的驱动程序。我没有发现确凿的证据声称这是真的，但这似乎是合理的/似是而非的。 github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-aws/src/…
这也是有道理的，为什么每个工作人员使用 100 个线程可能最终导致驱动程序中有 5000 个线程，以及为什么再次考虑使用不会给驱动程序增加太多压力的数字。（减少你的线程数）
查看@Stevel 的答案 - 这是提交者早期版本的已知 hadoop 错误！
非常感谢您 ping 我。