【问题标题】:What are the difference between part-r-00000 and part-m-00000 files in Hadoop?Hadoop 中的 part-r-00000 和 part-m-00000 文件有什么区别?
【发布时间】:2019-04-05 03:35:11
【问题描述】:

我们在使用 Hadoop 和运行 CentOS 的 Virtual Box 时使用 BigData。每当我们执行一些程序时,它会创建 2 个不同的文件 1) part-r-00000 和 2) part-m-00000。那么这两个文件的区别和用途是什么?

【问题讨论】:

    标签: hadoop


    【解决方案1】:

    输出文件默认命名为part-x-yyyyy

    地点:

    1) x‘m’‘r',具体取决于作业是 ma​​p 唯一作业还是 reduce

    2) yyyyy 是 Mapper 或 Reducer 任务编号(从零开始的(00000))

    因此,如果一个作业有 10 个 reducer,生成的文件将命名为 part-r-00000 到 part-r-00009,每个 reducer 任务一个。

    可以更改默认名称。

    这是您在 Driver 类中更改输出文件的默认值所需要做的所有事情: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”);

    所以这将导致您的文件被称为“Neo-r-00000”

    【讨论】:

      【解决方案2】:

      这些是 MapReduce 作业生成的文件。 r 表示文件已经被Reducer 输出,m 表示文件已经被Mapper 输出。

      【讨论】:

        猜你喜欢
        • 2012-05-26
        • 2016-08-05
        • 1970-01-01
        • 2018-08-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-11-07
        相关资源
        最近更新 更多