【问题标题】:Spark based processing of data stored on SSD基于 Spark 处理存储在 SSD 上的数据
【发布时间】:2018-12-16 15:52:18
【问题描述】:

我们目前正在使用基于 Spark 2.1 的应用程序,该应用程序分析和处理大量记录以生成一些用于生成报告的统计信息。现在我们使用 150 个执行器,每个执行器 2 个核心,每个执行器 10 GB 用于 Spark 作业,数据大小约为 3TB,以 parquet 格式存储。处理 12 个月的数据需要大约 15 分钟的时间。

现在为了提高性能,我们想尝试基于全 SSD 的节点将数据存储在 HDFS 中。那么问题来了,SSD 有什么特殊的配置/优化需要做的吗?是否针对基于 SSD 的 HDFS 与基于 HDD 的 HDFS 的 Spark 处理性能进行了研究?

【问题讨论】:

    标签: apache-spark apache-spark-sql hdfs solid-state-drive


    【解决方案1】:

    【讨论】:

    • 如果它解决了你的问题,你应该接受答案。
    • @Viplock 我现在已经接受了答案。实际上,我只是在等待更多的指针。
    猜你喜欢
    • 2021-06-30
    • 1970-01-01
    • 2019-03-29
    • 2017-12-11
    • 2018-09-15
    • 1970-01-01
    • 1970-01-01
    • 2020-07-15
    • 2017-02-13
    相关资源
    最近更新 更多