【问题标题】:sqoop - job failure during data importsqoop - 数据导入期间作业失败
【发布时间】:2020-09-27 17:11:04
【问题描述】:

如果在大型数据导入作业之间 sqoop 失败会发生什么。它会在作业失败之前将一些数据复制到 hdfs 上,还是根本不复制任何东西?

【问题讨论】:

    标签: hdfs sqoop


    【解决方案1】:

    如果您使用大于 1 的 --num-mapper 运行作业,当一些地图数量成功时,一个在某个时间点失败,其余 RUNNING 地图将被杀死。

    假设您使用 4 个映射器运行:

    • MAP-1:成功
    • MAP-2:成功
    • MAP-3:因 MAP-4 故障而被杀死
    • MAP-4:由于某种原因失败

    您将在--target-dir 中获得 MAP-1 和 MAP-2 的数据。


    如果您的位置顶部有一个配置单元表,并且您使用HCatalog 选项将数据导入 HDFS。然后 hive 在表位置内创建 .staging 目录。

    在所有 Maps 都成功之后,然后 hive 将暂存目录重命名为实际目录。

    在这种情况下,如果您的作业失败,HCatalog 会删除暂存目录。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-09-26
      • 1970-01-01
      • 1970-01-01
      • 2023-04-05
      • 2021-12-18
      • 1970-01-01
      • 2013-05-17
      • 2020-08-10
      相关资源
      最近更新 更多