使用 MapReduce 为 String 分配唯一 ID

【问题标题】：Assigning unique IDs to String using MapReduce使用 MapReduce 为 String 分配唯一 ID
【发布时间】：2012-11-02 05:03:13
【问题描述】：

我想运行一个 MapReduce 作业，我想扫描给定文件中的多个列，并为每列的每个不同值分配一个唯一 ID（索引号）。主要挑战是在不同节点或 Reducer 的不同实例上遇到的相同值共享相同 ID。

目前，我正在使用 zookeeper 来共享唯一 ID，但这会对性能产生影响。我什至将信息保存在减速器级别的本地缓存中，以避免多次访问 Zookeeper 以获得相同的值。我想探索是否有其他更好的机制来做同样的事情。

【问题讨论】：

可以用md5(value)作为id吗？

标签： mapreduce uniqueidentifier apache-zookeeper

【解决方案1】：

我可以为您的问题提出两种可能的解决方案

根据您的价值创建唯一 ID。这可能是一个冲突率较低的哈希函数。
使用比 ZooKeeper 更快的存储空间。您可以尝试像 Redis 这样的简单键值存储来存储值到 id 映射。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
2014-06-03
2011-04-09
1970-01-01
1970-01-01
2022-07-15
1970-01-01

相关资源

下载 2023-01-18
下载 2022-12-26
下载 2023-01-30

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode