【发布时间】:2015-03-06 15:56:11
【问题描述】:
http://www.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-12.pdf 的示例如下。
lines = spark.textFile("hdfs://...")
errors = lines.filter(_.startsWith("ERROR"))
errors.persist()
论文系统:“请注意,基本 RDD,行,不会加载到 RAM 中。这是可取的,因为 错误消息可能只是数据的一小部分(小到可以放入 记忆)”
我的问题是如何判断一个 RDD 是否会加载到 ram 中?
【问题讨论】:
标签: apache-spark rdd