【发布时间】:2014-06-16 07:13:56
【问题描述】:
我可以通过在导致 reducer 的语句中使用 PARALLEL 子句来控制 reducer 的数量。
我想控制映射器的数量。数据源已经创建,我无法减少数据源中的零件数量。是否可以控制我的 pig 语句生成的地图数量?我可以对生成的地图数量设置上限和上限吗?控制它是个好主意吗?
我尝试使用 pig.maxCombinedSplitSize、mapred.min.split.size、mapred.tasktracker.map.tasks.maximum 等,但它们似乎没有帮助。
有人可以帮我了解如何控制地图的数量并可能分享一个工作示例吗?
【问题讨论】:
-
您的数据的性质是什么?大小,每个投影的小文件数量?
-
@alexeipab,我的输入数据是几个(7 到 8)GB,每个部分文件有几个(10 到 20)mbs 数据。这些参数有影响吗?我的问题相当笼统。我想了解控制映射器数量的不同方法。
标签: hadoop apache-pig