【发布时间】:2016-03-03 23:37:45
【问题描述】:
举例说明问题 -
我有一个大小为 500MB 的文件 (input.csv)
文件中只包含一行(记录)
那么文件将如何存储在 HDFS 块中以及如何计算输入拆分?
【问题讨论】:
标签: hadoop mapreduce hdfs input-split
举例说明问题 -
我有一个大小为 500MB 的文件 (input.csv)
文件中只包含一行(记录)
那么文件将如何存储在 HDFS 块中以及如何计算输入拆分?
【问题讨论】:
标签: hadoop mapreduce hdfs input-split
您可能需要检查此链接:How does Hadoop process records split across block boundaries? 注意提到的“远程阅读”。
您的问题中提到的单个记录将存储在许多块中。但是,如果您使用 TextInputFormat 进行读取,则映射器必须跨块执行远程读取以处理记录。
【讨论】: