【发布时间】:2017-01-28 21:09:20
【问题描述】:
我对 Mapreduce 的工作原理有点困惑。我已经阅读了一些文章,但没有得到正确的答案。
场景:
我在 HDFS 上存储了一个大小为 1 TB 的文件(假设它存储在 /user/input/ 位置)。复制为 3,块大小为 128 MB。
现在,我想使用 mapreduce 分析这个 1TB 的文件。由于块大小为 128 MB,我总共将有 8192 个块。考虑到集群中有 100 台机器,那么
会在所有 100 个节点上产生 8192 个映射任务,平均分配映射器的数量吗?或者它只会在放置复制数据的那些节点上运行?
【问题讨论】: