【发布时间】:2016-01-10 10:20:35
【问题描述】:
我对 Hadoop 概念有点困惑。
Hadoop Chunk size , Split size and Block size有什么区别?
提前致谢。
【问题讨论】:
我对 Hadoop 概念有点困惑。
Hadoop Chunk size , Split size and Block size有什么区别?
提前致谢。
【问题讨论】:
块大小和块大小是相同的。 分割大小可能与块/块大小不同。
Map Reduce 算法不适用于文件的物理块。它适用于逻辑输入拆分。输入拆分取决于记录的写入位置。一条记录可能跨越两个映射器。
HDFS 的设置方式,它将非常大的文件分解成大块(例如,测量 128MB),并将这些块的三个副本存储在集群中的不同节点上。 HDFS 不知道这些文件的内容。
为了解决这个问题,Hadoop 使用存储在文件块中的数据的逻辑表示,称为输入拆分。当 MapReduce 作业客户端计算 输入拆分 时,它会计算出块中第一条完整记录的开始位置以及块中最后一条记录的位置区块结束。
如果块中的最后一条记录不完整,则输入拆分包括下一个块的位置信息以及完成记录所需的数据的字节偏移量。
查看article 了解更多详情。
相关的 SE 问题:
【讨论】: