【问题标题】:how to deal with sqoop import delimiter issues \r\n如何处理 sqoop 导入分隔符问题 \r\n
【发布时间】:2014-06-08 16:19:51
【问题描述】:

我正在使用 sqoop 从各种来源中提取数据,并且我注意到很多事情都可能出错。我已经多次发生某些列包含分隔符的情况,这会导致额外的不需要的行,进而导致不需要的 NULL 值。不需要的角色包括像 windows demiter 这样的坏人 \r\n 一直到 Icalandic Thorn。

处理这些问题的最佳做法是什么?

我考虑过按列选择所有内容并使用REPLACE-type 方法删除邪恶字符,但感觉应该有更好的方法。

【问题讨论】:

    标签: mysql oracle postgresql hive sqoop


    【解决方案1】:

    在较新版本的 sqoop 中,您有 --hive_drop-import-delims--hive-delims-replacement 命令。

    https://sqoop.apache.org/docs/1.4.3/SqoopUserGuide.html

    这将处理您的字符串字段中的\r \n\001。对于其他替换,您可以使用 REPLACE 函数的解决方法

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-07-23
      • 1970-01-01
      • 1970-01-01
      • 2015-11-17
      相关资源
      最近更新 更多