【发布时间】:2018-12-16 15:52:18
【问题描述】:
我们目前正在使用基于 Spark 2.1 的应用程序,该应用程序分析和处理大量记录以生成一些用于生成报告的统计信息。现在我们使用 150 个执行器,每个执行器 2 个核心,每个执行器 10 GB 用于 Spark 作业,数据大小约为 3TB,以 parquet 格式存储。处理 12 个月的数据需要大约 15 分钟的时间。
现在为了提高性能,我们想尝试基于全 SSD 的节点将数据存储在 HDFS 中。那么问题来了,SSD 有什么特殊的配置/优化需要做的吗?是否针对基于 SSD 的 HDFS 与基于 HDD 的 HDFS 的 Spark 处理性能进行了研究?
【问题讨论】:
标签: apache-spark apache-spark-sql hdfs solid-state-drive