【发布时间】:2012-11-02 05:03:13
【问题描述】:
我想运行一个 MapReduce 作业,我想扫描给定文件中的多个列,并为每列的每个不同值分配一个唯一 ID(索引号)。主要挑战是在不同节点或 Reducer 的不同实例上遇到的相同值共享相同 ID。
目前,我正在使用 zookeeper 来共享唯一 ID,但这会对性能产生影响。我什至将信息保存在减速器级别的本地缓存中,以避免多次访问 Zookeeper 以获得相同的值。我想探索是否有其他更好的机制来做同样的事情。
【问题讨论】:
-
可以用md5(value)作为id吗?
标签: mapreduce uniqueidentifier apache-zookeeper