【发布时间】:2017-12-02 15:26:14
【问题描述】:
在 2013 年 Spark 峰会上,雅虎的一个演讲中提到了这个 formula:
需要的分区 = 总数据大小/(内存大小/内核数)
假设一个具有 16 个 CPU 内核的 64Gb 内存主机。
演示文稿提到要处理 3Tb 的数据,需要的分区数是 46080。我很难得到相同的结果。请解释一下计算,46080这个数字是怎么来的?
【问题讨论】:
标签: apache-spark spark-streaming partitioning