【问题标题】:Spark benchmark setupSpark 基准测试设置
【发布时间】:2017-07-10 22:09:42
【问题描述】:

我想在 Spark 上做一个基准测试,包括:

有 10TB 的未压缩数据,其中每行采用以下格式:float;float;string。

这项工作基本上会做:

  • 在要分割的线上映射
  • 过滤字符串
  • reduceByKey,其中键基于两个浮点数。
  • 将结果存储在 HDFS 中

问题是: - 我应该有多少磁盘空间 - 多少内存 - 作业(#exec、#core、#mem)和 yarn-site.conf 的参数是什么

目前我在 10 个节点上有 15To 的存储空间(16Cores,16GB,1.5To 的存储空间),但它失败了:

错误 client.TransportClient: 无法将 RPC 6631382768729976966 发送到 benchophadoopslaves1/A.B.C.D:43365: java.nio.channels.ClosedChannelException java.nio.channels.ClosedChannelException 17/07/06 17:05:42

警告 netty.NettyRpcEndpointRef:错误发送消息 [message = Heartbeat(41,[Lscala.Tuple2;@4f4d418,BlockManagerId(41, benchophadoopslaves1, 34521))] 3 次尝试 java.io.IOException:无法将 RPC 6631382768729976966 发送到 benchophadoopslaves1/A.B.C.D:43365:java.nio.channels.ClosedChannelException 在 org.apache.spark.network.client.TransportClient$3.operationComplete(TransportClient.java:239) 在 org.apache.spark.network.client.TransportClient$3.operationComplete(TransportClient.java:226) 在 io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)

【问题讨论】:

    标签: apache-spark benchmarking


    【解决方案1】:

    朋友给了我一个提示:给驱动10GB。它有效

    【讨论】:

      猜你喜欢
      • 2023-02-19
      • 2017-07-07
      • 1970-01-01
      • 2012-10-12
      • 2019-05-10
      • 2013-04-19
      • 2010-12-30
      • 1970-01-01
      相关资源
      最近更新 更多