【问题标题】:Caching mapper output缓存映射器输出
【发布时间】:2023-04-03 13:37:02
【问题描述】:

我注意到我经常在相同(大量)数据上运行相同的映射作业,并更改减速器的行为。是否可以以某种无缝方式将映射器输出存储在 HDFS 上,以便化简器可以读取它?我将如何创建一个读取 key-listofvalue 对的 reducer-only 作业?

【问题讨论】:

    标签: java mapreduce store


    【解决方案1】:

    要定义reducer only job,您需要定义身份映射器,如下所述: job.setMapperClass(Mapper.class)

    对于您使用 Mapper 一次性数据的问题,您可以先运行一个 Map only 作业,方法是指定: job.setNumReducer(0) 并且,在得到它的输出之后,使用这个作业的输出目录作为 Reducer 唯一作业的输入目录。

    附:上面提到的方法名称可能与 API 中的名称不同,因为我目前没有 API。请在使用前进行验证。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-01-08
      • 2018-06-24
      • 1970-01-01
      • 1970-01-01
      • 2018-05-24
      • 2014-02-06
      • 1970-01-01
      相关资源
      最近更新 更多