小数据大小与可用内存的 Executor OutOfMemoryExceptions答案

【问题标题】：Executor OutOfMemoryExceptions on small data size vs available memory小数据大小与可用内存的 Executor OutOfMemoryExceptions
【发布时间】：2016-12-07 15:30:59
【问题描述】：

给定一个简单的案例类

  case class Rating(user: Int, item: Int, rating: Double)

还有两个RDD[Rating]：我们正在获得OOME，两个RDD 之间有大约700 万个条目。

我们配置了一个具有 30.4GB RAM 的单个执行器。这是每个Rating 条目的巨大开销。我无法证明这一点：Int 和 Double 的原始原语在 64 位平台上是 8 个字节。然后将有相同的java表示以及Case Class的开销。但总而言之，对于 JVM 中的单个 Rating 条目，我们仍然应该小于 200 字节。

假设 30.4GB RAM 和 7M 对象 - 那么每个对象的明显内存使用量将超过 4KB。那不计算。

这里是集群和作业信息，显示单个执行器为 30.4GB：

请注意，我们还通过在KryoSerializer 中注册Rating 类来启用kryo 序列化并启用

 spark.rdd.compress=true

这些并没有影响 OOME。

RDD 表示是否会导致内存使用膨胀更多？或者是大多数执行程序 RAM 根本没有用于此问题 - OOME 是由于其他原因而发生的？

这是生成的 OOME - 仅在工作几秒钟后发生：

[Dec 06 22:37:32] Generated an implicit feedback dataset with 4501305 ratings for training and 2247105 for test.
Generated dataset in 2644ms
[Stage 0:>                                                          (0 + 1) / 2]Exception in thread "dispatcher-event-loop-5" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Arrays.java:2271)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at java.io.ObjectOutputStream$BlockDataOutputStream.write(ObjectOutputStream.java:1852)
    at java.io.ObjectOutputStream.write(ObjectOutputStream.java:708)
    at java.nio.channels.Channels$WritableByteChannelImpl.write(Channels.java:458)
    at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject$1.apply(SerializableBuffer.scala:49)
    at org.apache.spark.util.SerializableBuffer$$anonfun$writeObject$1.apply(SerializableBuffer.scala:47)
    at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1219)
    at org.apache.spark.util.SerializableBuffer.writeObject(SerializableBuffer.scala:47)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:988)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1495)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1547)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1508)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1431)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1177)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks$1.apply(CoarseGrainedSchedulerBackend.scala:226)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$launchTasks$1.apply(CoarseGrainedSchedulerBackend.scala:225)
    at scala.collection.immutable.List.foreach(List.scala:318)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.launchTasks(CoarseGrainedSchedulerBackend.scala:225)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint.org$apache$spark$scheduler$cluster$CoarseGrainedSchedulerBackend$DriverEndpoint$$makeOffers(CoarseGrainedSchedulerBackend.scala:196)
    at org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend$DriverEndpoint$$anonfun$receive$1.applyOrElse(CoarseGrainedSchedulerBackend.scala:123)

注意：如果我们使用稍微少一点的数据 - 例如RDD 和 500 万 Ratings 然后工作相对较快地完成（

因此，我们不确定是什么因素将 spark worker 的有用性限制在如此低的内存限制中。

【问题讨论】：

标签： scala apache-spark out-of-memory rdd

【解决方案1】：

问题的很大一部分似乎是DRIVER 程序需要比预期更多的 RAM。

驱动程序没有做任何collect、take、groupBy 等，而只是count 的。不知道为什么count 需要驱动程序上的大量资源。随着我们缩小驱动程序详细信息，将在此处添加更多详细信息。

【讨论】：