【发布时间】:2017-07-10 22:09:42
【问题描述】:
我想在 Spark 上做一个基准测试,包括:
有 10TB 的未压缩数据,其中每行采用以下格式:float;float;string。
这项工作基本上会做:
- 在要分割的线上映射
- 过滤字符串
- reduceByKey,其中键基于两个浮点数。
- 将结果存储在 HDFS 中
问题是: - 我应该有多少磁盘空间 - 多少内存 - 作业(#exec、#core、#mem)和 yarn-site.conf 的参数是什么
目前我在 10 个节点上有 15To 的存储空间(16Cores,16GB,1.5To 的存储空间),但它失败了:
错误 client.TransportClient: 无法将 RPC 6631382768729976966 发送到 benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException java.nio.channels.ClosedChannelException 17/07/06 17:05:42
警告 netty.NettyRpcEndpointRef:错误发送消息 [message = Heartbeat(41,[Lscala.Tuple2;@4f4d418,BlockManagerId(41, benchophadoopslaves1, 34521))] 3 次尝试 java.io.IOException:无法将 RPC 6631382768729976966 发送到 benchophadoopslaves1/A.B.C.D:43365:java.nio.channels.ClosedChannelException 在 org.apache.spark.network.client.TransportClient$3.operationComplete(TransportClient.java:239) 在 org.apache.spark.network.client.TransportClient$3.operationComplete(TransportClient.java:226) 在 io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)
【问题讨论】: