【发布时间】:2013-07-18 15:17:04
【问题描述】:
我正在阅读 hadoop 权威指南,其中清楚地解释了输入拆分。 就像
输入拆分不包含实际数据,而是包含存储 HDFS 上数据的位置
和
通常,输入分割的大小与块大小相同
1) 假设一个 64MB 的块在节点 A 上,并在其他 2 个节点(B,C)之间复制,map-reduce 程序的输入拆分大小是 64MB,这个拆分只有节点A的位置?或者它是否具有所有三个节点 A、b、C 的位置?
2) 由于数据对于所有三个节点都是本地的,因此框架如何决定(选择)在特定节点上运行的 maptask?
3) 如果 Input Split 大小大于或小于块大小如何处理?
【问题讨论】: