Spark缓存RDD而不被要求答案

【问题标题】：Spark caching RDD without being asked toSpark缓存RDD而不被要求
【发布时间】：2015-06-28 08:49:14
【问题描述】：

根据 Spark 文档，如果我们不“缓存”给定的 RDD，那么每次我们引用它时，都会评估 RDD 背后的业务逻辑（图表）。但实际上，当我使用 Spark shell 尝试此操作时，我发现即使我们没有显式缓存，仍然使用“内存中”副本。当我们不要求时，为什么 Spark 会缓存 RDD？我在 Windows 上使用 Spark 的独立模式，与此有关吗？

所以让我描述一下我做了什么。我创建了一个简单的文本文件：-

key1,value1
key2,value2
key3,value3

现在我从 Spark 的 Scala shell 创建了一个 RDD：-

val rdd = sc.textFile("sample.txt").map(line => line.split(",")).map(line => (line(0),line(1)))

现在，当我对此 RDD 执行以下操作时，我得到 value1：-

rdd.lookup("key1")

到目前为止一切都很好。现在我打开原始源文件并在其中添加一个条目：-

key4,value4

我保存文件。现在从同一个 shell（我还没有退出 shell），我触发了以下操作：-

rdd.lookup("key4")

它返回空列表，所以基本上它说它没有找到key4的条目。这意味着 Spark 仍在使用它显然保存在内存中的旧副本。否则，如果你说的是对的，它应该从头开始评估 RDD 的完整业务逻辑，在这种情况下它会获取 key4,value4。但它完全不知道文件中的这一新行。为什么会这样？我显然还没有缓存 RDD，它仍然指的是旧版本的文件。

谢谢

【问题讨论】：

你用的是什么版本的 Spark？
呃，奇怪！您是否尝试过使用本地文件或 HDFS？我无法在本地磁盘上使用 1.4.0 进行复制。如果可以的话，我建议你查看作业的 Spark UI 上的 DAG 可视化。它应该告诉你它是否认为它正在重新读取文件。
我只使用本地文件。事实上，我已经在我的 Windows 笔记本电脑上安装了这个。让我按照您的建议尝试检查 UI。
我尝试在 spark UI 上检查 DAG 可视化以完成这项工作，即 rdd.lookup("key4")，它显示它正在从文件中读取。但是结果仍然是，即使在创建RDD之后添加到文件中，它也无法获取key4，value4。我注意到的另一件有趣的事情是，即使我缓存某些 RDD 并在 shell 中连续两次对其调用某些“动作”，最新作业的 DAG 可视化仍然显示它正在从源文件中读取。这是否意味着“缓存”在本地不起作用？
也许这意味着我只是误解了可视化:)。抱歉，我目前无法深入研究。作为一种解决方法，我想您总是可以从头开始使用新的 RDD。如果没有缓存，我认为重用一个 RDD 不会带来性能优势。

标签： scala apache-spark

【解决方案1】：

我可以使用 Apache Spark 1.3.0 重现此行为。我也想用 1.4.0 重现它，因为它可以很好地了解阶段中发生的转换。但在 Spark 1.4.0 rdd.lookup("key4") 中有效！

我认为这意味着该行为是由错误引起的。我找不到错误编号。

【讨论】：

【解决方案2】：

您确定您在 hdfs 中编辑并上传了这个新的文本文件吗？我重复了你的步骤：在 hdfs 上上传文件，计算 rdd，删除旧文件，用新行上传新文件并运行查找操作 - 它返回新结果。

【讨论】：

您使用的是什么 Spark 版本？您是否也尝试过使用本地文件？（我认为 OP 正在尝试使用本地文件。）
1.3.1，独立模式，hdfs 文件系统配置有<name>fs.defaultFS</name> 属性core-site.xml。
我在 Windows 上使用带有本地文件系统的 Spark 1.4.0（'Spark Standalone' 也由 Spark Shell 启动）。但即使在这种情况下，我相信它的行为也不应该有任何不同。 Spark 不应该在没有我们要求的情况下缓存它。每次我们引用 RDD 时它都应该执行 lineage，除非它被缓存。我没有看到它发生。

【解决方案3】：

这不是错误，而是 Spark shell 提供的功能。我能够使用最新的 Spark-1.5.0-SNAPSHOT 看到相同的行为。

Spark 家伙创建 shell 的想法是一些交互式控制台，用于对预加载的数据集进行一些快速计算。在核心下，它使用 Scala REPL，一旦声明，对象就会保存在 JVM 中。

参见第 4 节（解释器集成）http://www.cs.berkeley.edu/~matei/papers/2010/hotcloud_spark.pdf

【讨论】：