【发布时间】:2023-04-03 13:37:02
【问题描述】:
我注意到我经常在相同(大量)数据上运行相同的映射作业,并更改减速器的行为。是否可以以某种无缝方式将映射器输出存储在 HDFS 上,以便化简器可以读取它?我将如何创建一个读取 key-listofvalue 对的 reducer-only 作业?
【问题讨论】:
我注意到我经常在相同(大量)数据上运行相同的映射作业,并更改减速器的行为。是否可以以某种无缝方式将映射器输出存储在 HDFS 上,以便化简器可以读取它?我将如何创建一个读取 key-listofvalue 对的 reducer-only 作业?
【问题讨论】:
要定义reducer only job,您需要定义身份映射器,如下所述: job.setMapperClass(Mapper.class)
对于您使用 Mapper 一次性数据的问题,您可以先运行一个 Map only 作业,方法是指定: job.setNumReducer(0) 并且,在得到它的输出之后,使用这个作业的输出目录作为 Reducer 唯一作业的输入目录。
附:上面提到的方法名称可能与 API 中的名称不同,因为我目前没有 API。请在使用前进行验证。
【讨论】: