基于 Spark 处理存储在 SSD 上的数据

【问题标题】：Spark based processing of data stored on SSD基于 Spark 处理存储在 SSD 上的数据
【发布时间】：2018-12-16 15:52:18
【问题描述】：

我们目前正在使用基于 Spark 2.1 的应用程序，该应用程序分析和处理大量记录以生成一些用于生成报告的统计信息。现在我们使用 150 个执行器，每个执行器 2 个核心，每个执行器 10 GB 用于 Spark 作业，数据大小约为 3TB，以 parquet 格式存储。处理 12 个月的数据需要大约 15 分钟的时间。

现在为了提高性能，我们想尝试基于全 SSD 的节点将数据存储在 HDFS 中。那么问题来了，SSD 有什么特殊的配置/优化需要做的吗？是否针对基于 SSD 的 HDFS 与基于 HDD 的 HDFS 的 Spark 处理性能进行了研究？

【问题讨论】：

标签： apache-spark apache-spark-sql hdfs solid-state-drive

【解决方案1】：

http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks

SPARK_LOCAL_DIRS 是您需要更改的配置。

https://www.slideshare.net/databricks/optimizing-apache-spark-throughput-using-intel-optane-and-intel-memory-drive-technology-with-ravikanth-durgavajhala

用例是 K 表示算法，但会有所帮助。

【讨论】：

如果它解决了你的问题，你应该接受答案。
@Viplock 我现在已经接受了答案。实际上，我只是在等待更多的指针。

猜你喜欢

2021-06-30
1970-01-01
2019-03-29
2017-12-11
2018-09-15
1970-01-01
1970-01-01
2020-07-15
2017-02-13

相关资源

下载 2022-12-25
下载 2023-01-20
下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode