【发布时间】:2018-10-07 02:10:59
【问题描述】:
假设我们从alluxio内存创建一个RDD
rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)
rdd2 是否驻留在alluxio 或spark 的堆上。
也会有类似的操作(alluxio 上的两个 pairRDD)
pairRDD1.join(pairRDD2) 在 alluxio 或 spark 堆上创建一个新的 RDD。
第二个问题的原因是我需要在alluxio上加入2个大型RDD。连接会使用alluxio的内存还是RDD会被拉入火花内存以进行连接(以及生成的RDD将驻留在哪里)。
【问题讨论】:
-
-
map的输出被写入 OS BUFFER CACHE。 - 操作系统将决定数据是否可以保留在操作系统缓冲区缓存中,或者是否应该溢出到磁盘。
标签: python apache-spark pyspark alluxio