【发布时间】:2019-01-04 19:27:27
【问题描述】:
假设我有一个4 nodes 集群,每个集群都有1 core。我有一个600 Petabytes 大小的大文件,我想通过Spark 处理它。文件可以存储在HDFS。
我认为这样确定没有。分区数是文件大小/总数。集群中的核心数。如果确实如此,我将拥有4 partitions(600/4) 所以每个分区的大小都是125 PB。
但我认为125 PB 对于分区来说太大了,所以我的想法与推断不相关是否正确。分区数。
PS:我刚开始使用Apache Spark。所以,如果这是一个幼稚的问题,请道歉。
【问题讨论】:
-
我对您存储此文件的位置感兴趣....
-
@Arj - 在 HDFS 中,已在上面更新。它是在 HDFS 还是本地文件系统中是否重要?
标签: apache-spark hdfs data-partitioning