【发布时间】:2014-09-02 14:20:14
【问题描述】:
我正在寻找类似于 Spark 中 Hadoop 分布式缓存的功能。我需要一个相对较小的数据文件(带有一些索引值)存在于所有节点中,以便进行一些计算。是否有任何方法可以在 Spark 中实现这一点?
到目前为止,我的解决方法是将索引文件分发和缩减为正常处理,这在我的应用程序中大约需要 10 秒。之后,我将文件保存为广播变量,如下所示:
JavaRDD<String> indexFile = ctx.textFile("s3n://mybucket/input/indexFile.txt",1);
ArrayList<String> localIndex = (ArrayList<String>) indexFile.collect();
final Broadcast<ArrayList<String>> globalIndex = ctx.broadcast(indexVar);
这使程序能够理解变量 globalIndex 包含的内容。到目前为止,它是一个对我来说可能没问题的补丁,但我认为这不是最好的解决方案。对于更大的数据集或大量变量,它仍然有效吗?
注意:我使用的是在位于多个 EC2 实例的独立集群上运行的 Spark 1.0.0。
【问题讨论】:
-
不能缓存文件吗?基本上存储为 RDD。将是可扩展的。
-
我认为广播变量和缓存它是一样的。我的问题主要是要知道是否存在直接缓存方法,而不必先“处理”它。
-
所以我个人认为广播 var 在可用性方面比 distcache 更好,但是你有理由只使用 Hadoop 的分布式缓存
-
@Venkat 这不是一个等效的解决方案,distcache 用于在多个节点上存储 same 数据,RDD 用于在每个节点上存储不同的数据节点并且不能为此目的进行扩展
标签: hadoop apache-spark distribute distributed-cache