【问题标题】:Number of mappers in sqoopsqoop 中的映射器数量
【发布时间】:2018-04-29 11:37:09
【问题描述】:

我知道 sqoop 有一个选项,我们可以设置映射器的数量(默认为 4)。在实时项目中,由谁决定以及如何决定映射器的数量?我们是使用默认数字还是任意数字? 我知道一些理论链接说映射器的数量是由您的硬件和其他考虑因素定义的,但它并没有给我一个实际的决定方法。 任何关于它在生产中如何实际完成的帮助都是非常合适的。

【问题讨论】:

标签: sqoop sqoop2


【解决方案1】:

--num-mappers 是一个提示,Sqoop 可能不会完全使用指定的数字。默认值为4

此参数控制并行度。例如,如果您要将数据从数据库导入 Hive 表,则映射器的数量指定 Sqoop 将与数据库建立的并发连接以并行提取和执行数据传输。一方面,使用更多的映射器将导致更多的并行性并更快地完成数据传输。另一方面,这会给数据库带来更多负载。

增加映射器的数量超过某个点可能会使数据库饱和(或者 DBA 可能设置了配置的限制),因此性能将停滞不前。

此外,您的集群应该有足够的可用资源来支持您指定的映射器数量。

您可以使用几个不同的值进行一些示例运行,看看什么可以为您的数据集和环境提供最佳性能。

【讨论】:

  • 请不要重复相同问题的答案。如果有,请尝试将其标记为重复。
猜你喜欢
  • 2020-05-15
  • 1970-01-01
  • 2015-09-10
  • 1970-01-01
  • 2014-06-09
  • 2014-12-13
  • 1970-01-01
  • 2023-04-05
  • 1970-01-01
相关资源
最近更新 更多