【发布时间】:2015-08-28 20:01:14
【问题描述】:
我有这种情况,我需要让一个数据集在多个 reducer 中可用。我不想为每个减速器在内存中加载相同的数据,因为我不认为它是最佳行为并且文件大小很大。我不想将数据存储在集群之外,而是进行网络调用。
【问题讨论】:
-
你能详细说明一下吗?您是否希望来自映射器的数据到达多个减速器而不是单个减速器?
标签: hadoop mapreduce hadoop-streaming
我有这种情况,我需要让一个数据集在多个 reducer 中可用。我不想为每个减速器在内存中加载相同的数据,因为我不认为它是最佳行为并且文件大小很大。我不想将数据存储在集群之外,而是进行网络调用。
【问题讨论】:
标签: hadoop mapreduce hadoop-streaming
将其放入 DistributedCache 可能是唯一的选择。
【讨论】: