【发布时间】:2019-06-03 21:35:25
【问题描述】:
我们有许多 distcp 作业将数据从主集群复制到备份集群。这些作业整天运行并复制几乎所有关键数据库的表。我们在这里使用 webhdfs。
其中一些作业运行数小时(对于巨大的表(ORC 格式)。有什么方法可以优化两个集群之间的 distcp 操作。 欢迎提出任何建议。
我们尝试使用带宽来加快速度。以下是我们脚本的摘录。
PROP="-Dmapreduce.task.timeout=300000 -Dmapred.job.queue.name=$YARN_QUEUE -Dmapred.job.name="cpy-${jobName}" -bandwidth 800"
hadoop distcp ${PROP} $1 WEBHDFS://$DESTNAMENODE$2 >> $3 2>&1
【问题讨论】:
标签: performance hadoop hdfs hadoop-yarn distcp