缓存映射器输出

【问题标题】：Caching mapper output缓存映射器输出
【发布时间】：2023-04-03 13:37:02
【问题描述】：

我注意到我经常在相同（大量）数据上运行相同的映射作业，并更改减速器的行为。是否可以以某种无缝方式将映射器输出存储在 HDFS 上，以便化简器可以读取它？我将如何创建一个读取 key-listofvalue 对的 reducer-only 作业？

【问题讨论】：

【解决方案1】：

要定义reducer only job，您需要定义身份映射器，如下所述： job.setMapperClass(Mapper.class)

对于您使用 Mapper 一次性数据的问题，您可以先运行一个 Map only 作业，方法是指定： job.setNumReducer(0) 并且，在得到它的输出之后，使用这个作业的输出目录作为 Reducer 唯一作业的输入目录。

附：上面提到的方法名称可能与 API 中的名称不同，因为我目前没有 API。请在使用前进行验证。

【讨论】：