【发布时间】:2021-10-25 05:19:15
【问题描述】:
我在 HDFS 中有一个 100gb 的 csv 文件。集群大小为 10 个节点、15 个内核(在一个节点中)和 64gb RAM(在一个节点中)。我找不到根据文件大小配置执行器数量和执行器内存的文章。有人可以根据集群大小和输入文件大小帮助找到这些参数的最佳值吗
【问题讨论】:
-
如果您将文件转换为 Parquet 或 ORC,它可能会缩小一半,如果不是更小的话
-
是的,将其转换为 orc 或 parquet 文件是不错的选择
标签: apache-spark hdfs