【问题标题】:Assigning unique IDs to String using MapReduce使用 MapReduce 为 String 分配唯一 ID
【发布时间】:2012-11-02 05:03:13
【问题描述】:

我想运行一个 MapReduce 作业,我想扫描给定文件中的多个列,并为每列的每个不同值分配一个唯一 ID(索引号)。主要挑战是在不同节点或 Reducer 的不同实例上遇到的相同值共享相同 ID。

目前,我正在使用 zookeeper 来共享唯一 ID,但这会对性能产生影响。我什至将信息保存在减速器级别的本地缓存中,以避免多次访问 Zookeeper 以获得相同的值。我想探索是否有其他更好的机制来做同样的事情。

【问题讨论】:

  • 可以用md5(value)作为id吗?

标签: mapreduce uniqueidentifier apache-zookeeper


【解决方案1】:

我可以为您的问题提出两种可能的解决方案

  1. 根据您的价值创建唯一 ID。这可能是一个冲突率较低的哈希函数。
  2. 使用比 ZooKeeper 更快的存储空间。您可以尝试像 Redis 这样的简单键值存储来存储值到 id 映射。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-06-03
    • 2011-04-09
    • 1970-01-01
    • 1970-01-01
    • 2022-07-15
    • 1970-01-01
    相关资源
    最近更新 更多