Spark的性能瓶颈答案

【问题标题】：Performance bottleneck of SparkSpark的性能瓶颈
【发布时间】：2015-07-27 02:13:35
【问题描述】：

在 NSDI 2015 上发表的一篇论文“Making Sense of Performance in Data Analytics Frameworks”给出了 CPU（不是 IO 或网络）是 Spark 的性能瓶颈的结论。 Kay 在 Spark 上做了一些实验，包括 BDbench 、TPC-DS 和 procdution 工作负载（只使用 Spark SQL？）。不知道这个结论对于一些基于Spark构建的框架是否正确（比如Streaming，通过网络接收连续的数据流，网络IO和磁盘都会承受很大的压力）。

【问题讨论】：

标签： performance apache-spark bigdata distributed-computing

【解决方案1】：

Spark Streaming 中的网络和磁盘压力可能较小，因为流通常是checkpointed，这意味着通常不会永远保留所有数据。

但归根结底，这是一个研究问题：解决这个问题的唯一方法是进行基准测试。凯的代码是open-source。

【讨论】：

感谢您的关注。但 Kay 的实验大多基于 Spark SQL，这在某些方面与其他框架不同（尽管它们共享相同的 Spark 核心）。我只是想知道这篇论文怎么能给出关于 Spark（不是 Spark SQL）的结论。我会调查这个问题，再次感谢！

【解决方案2】：

这实际上取决于您执行的工作。你需要分析你写的工作，看看压力和瓶颈在哪里。例如，我最近有一份工作，工作人员没有足够的内存，所以它也不得不溢出到磁盘，这大大增加了它的整体 IO。当我消除内存问题时，CPU 是下一个问题。更严格的代码将问题转移到 IO 等。

【讨论】：

感谢您的回答。您实际上是对的，这取决于实际的工作量。但我只是想知道这个结论是否正确，因为该论文确实以一种常见的模式给出了它。