【问题标题】:Performance bottleneck of SparkSpark的性能瓶颈
【发布时间】:2015-07-27 02:13:35
【问题描述】:

在 NSDI 2015 上发表的一篇论文“Making Sense of Performance in Data Analytics Frameworks”给出了 CPU(不是 IO 或网络)是 Spark 的性能瓶颈的结论。 Kay 在 Spark 上做了一些实验,包括 BDbench 、TPC-DS 和 procdution 工作负载(只使用 Spark SQL?)。不知道这个结论对于一些基于Spark构建的框架是否正确(比如Streaming,通过网络接收连续的数据流,网络IO和磁盘都会承受很大的压力)。

【问题讨论】:

    标签: performance apache-spark bigdata distributed-computing


    【解决方案1】:

    Spark Streaming 中的网络和磁盘压力可能较小,因为流通常是checkpointed,这意味着通常不会永远保留所有数据。

    但归根结底,这是一个研究问题:解决这个问题的唯一方法是进行基准测试。凯的代码是open-source

    【讨论】:

    • 感谢您的关注。但 Kay 的实验大多基于 Spark SQL,这在某些方面与其他框架不同(尽管它们共享相同的 Spark 核心)。我只是想知道这篇论文怎么能给出关于 Spark(不是 Spark SQL)的结论。我会调查这个问题,再次感谢!
    【解决方案2】:

    这实际上取决于您执行的工作。你需要分析你写的工作,看看压力和瓶颈在哪里。 例如,我最近有一份工作,工作人员没有足够的内存,所以它也不得不溢出到磁盘,这大大增加了它的整体 IO。当我消除内存问题时,CPU 是下一个问题。更严格的代码将问题转移到 IO 等。

    【讨论】:

    • 感谢您的回答。您实际上是对的,这取决于实际的工作量。但我只是想知道这个结论是否正确,因为该论文确实以一种常见的模式给出了它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-12
    • 1970-01-01
    • 2018-07-20
    • 1970-01-01
    • 1970-01-01
    • 2010-11-22
    相关资源
    最近更新 更多