【问题标题】:Incrementally updating/adding data on HDFS在 HDFS 上增量更新/添加数据
【发布时间】:2014-04-20 02:14:01
【问题描述】:

在我的应用程序中有 4 个表,每个表都有超过 100 万条数据。
目前我的基于 java 的报告引擎加入了所有表格并获取数据以显示在报告中。

现在我想介绍使用 sqoop 的 Hadoop。我已经安装了 hadoop 2.2 和 sqoop 1.9。

我做了一个小的 POC 来导入 hdfs 中的数据。问题是,每次它都会创建新的数据文件。

我的需要是:

会有一个每天运行一次的调度程序,它会:

  1. 从所有四个表中挑选数据并使用 sqoop 加载到 hdfs 中。
  2. PIG 将对数据进行一些转换和连接,并准备具体的去规范化数据。
  3. Sqoop 将再次将此数据导出到单独的导出表中。

我对此有几个问题:

  1. 是否需要在每次 sqoop 导入调用时将整个数据从 DB 导入 HDFS?
  2. 在主表中,一些数据已更新,一些数据为新数据,如果在 HDFS 中加载时合并数据,我该如何处理。
  3. 在导出时,我是否需要再次将整个数据导出到报表中。如果是,我会怎么做。

在这种情况下请帮助我...

如果你有,请建议我更好的解决方案..

【问题讨论】:

    标签: postgresql hadoop sqoop


    【解决方案1】:

    Sqoop 支持增量和增量导入。查看 Sqoop 文档here 了解更多详情。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-11-29
      • 1970-01-01
      • 1970-01-01
      • 2017-10-25
      • 1970-01-01
      • 2016-08-28
      • 2015-02-06
      相关资源
      最近更新 更多