【发布时间】:2020-09-27 17:11:04
【问题描述】:
如果在大型数据导入作业之间 sqoop 失败会发生什么。它会在作业失败之前将一些数据复制到 hdfs 上,还是根本不复制任何东西?
【问题讨论】:
如果在大型数据导入作业之间 sqoop 失败会发生什么。它会在作业失败之前将一些数据复制到 hdfs 上,还是根本不复制任何东西?
【问题讨论】:
如果您使用大于 1 的 --num-mapper 运行作业,当一些地图数量成功时,一个在某个时间点失败,其余 RUNNING 地图将被杀死。
假设您使用 4 个映射器运行:
您将在--target-dir 中获得 MAP-1 和 MAP-2 的数据。
如果您的位置顶部有一个配置单元表,并且您使用HCatalog 选项将数据导入 HDFS。然后 hive 在表位置内创建 .staging 目录。
在所有 Maps 都成功之后,然后 hive 将暂存目录重命名为实际目录。
在这种情况下,如果您的作业失败,HCatalog 会删除暂存目录。
【讨论】: