【问题标题】:hadoop - how would input splits form if a file has only one record and the size of file is more than block size?hadoop - 如果文件只有一条记录并且文件大小大于块大小,输入拆分形式如何?
【发布时间】:2016-03-03 23:37:45
【问题描述】:

举例说明问题 -

我有一个大小为 500MB 的文件 (input.csv)

文件中只包含一行(记录)

那么文件将如何存储在 HDFS 块中以及如何计算输入拆分?

【问题讨论】:

    标签: hadoop mapreduce hdfs input-split


    【解决方案1】:

    您可能需要检查此链接:How does Hadoop process records split across block boundaries? 注意提到的“远程阅读”。

    您的问题中提到的单个记录将存储在许多块中。但是,如果您使用 TextInputFormat 进行读取,则映射器必须跨块执行远程读取以处理记录。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多