【发布时间】:2014-08-11 22:16:33
【问题描述】:
我想知道是否有人可以解释分布式缓存在 Hadoop 中的工作原理。我多次运行作业,每次运行后我注意到每个节点上的本地分布式缓存文件夹的大小都在增长。
有没有办法让多个作业重用分布式缓存中的同一个文件?还是分布式缓存仅在任何单个作业的生命周期内有效?
我感到困惑的原因是 Hadoop 文档提到“DistributedCache 跟踪缓存文件的修改时间戳”,所以这让我相信如果时间戳没有改变,那么它应该不需要重新缓存或重新复制文件到节点。
我正在使用以下方法成功地将文件添加到分布式缓存:
DistributedCache.addFileToClassPath(hdfsPath, conf);
【问题讨论】:
标签: hadoop hdfs distributed-cache