【发布时间】:2018-12-22 15:25:44
【问题描述】:
每当我尝试将大量数据从 Teradata 导入 Hive 时.. 它会在最后两个/三个映射器上被击中超过 2 小时.. 我正在使用 8 个映射器和 --split-by 有什么方法可以提高性能吗?由于我在生产中,所以我使用的映射器数量较少。请帮助
【问题讨论】:
-
如果它在最后两个/三个映射器上被击中超过 2 小时,那么您的拆分列分布不均匀。这个答案解释了会发生什么:stackoverflow.com/a/37389134/2700344
标签: hadoop hive teradata sqoop