【发布时间】:2015-07-27 02:13:35
【问题描述】:
在 NSDI 2015 上发表的一篇论文“Making Sense of Performance in Data Analytics Frameworks”给出了 CPU(不是 IO 或网络)是 Spark 的性能瓶颈的结论。 Kay 在 Spark 上做了一些实验,包括 BDbench 、TPC-DS 和 procdution 工作负载(只使用 Spark SQL?)。不知道这个结论对于一些基于Spark构建的框架是否正确(比如Streaming,通过网络接收连续的数据流,网络IO和磁盘都会承受很大的压力)。
【问题讨论】:
标签: performance apache-spark bigdata distributed-computing