【问题标题】:Getting RDBMS updates into HDFS using Sqoop使用 Sqoop 将 RDBMS 更新到 HDFS
【发布时间】:2014-12-04 06:44:54
【问题描述】:

我正在尝试编写一个 sqoop 作业以达到以下要求。

  1. 我有一个 XYZ 表,其中每天可能会创建大约 100 万条新记录和 50 万条更新。
  2. 我将完成一个 Sqoop 工作结束,它应该将增量数据从 XYZ 获取到 HDFS,并获取更新的记录并将其与 HDFS 同步。

我很乐意实施第 1 点,但找不到第 2 点的可行解决方案。

请帮忙!!!!

谢谢, 拉古

【问题讨论】:

  • 我的回答对你有帮助吗?

标签: hadoop sqoop


【解决方案1】:

对于这种特殊情况,您可以在需要的地方执行增量 sqoop
lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″

请参考以下示例查询示例

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import

HiveHDFS 是可选的,您可以选择其中任何一个来将数据带到任何地方。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-04
    • 2014-11-25
    • 2016-09-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多