【发布时间】:2014-04-20 02:14:01
【问题描述】:
在我的应用程序中有 4 个表,每个表都有超过 100 万条数据。
目前我的基于 java 的报告引擎加入了所有表格并获取数据以显示在报告中。
现在我想介绍使用 sqoop 的 Hadoop。我已经安装了 hadoop 2.2 和 sqoop 1.9。
我做了一个小的 POC 来导入 hdfs 中的数据。问题是,每次它都会创建新的数据文件。
我的需要是:
会有一个每天运行一次的调度程序,它会:
- 从所有四个表中挑选数据并使用 sqoop 加载到 hdfs 中。
- PIG 将对数据进行一些转换和连接,并准备具体的去规范化数据。
- Sqoop 将再次将此数据导出到单独的导出表中。
我对此有几个问题:
- 是否需要在每次 sqoop 导入调用时将整个数据从 DB 导入 HDFS?
- 在主表中,一些数据已更新,一些数据为新数据,如果在 HDFS 中加载时合并数据,我该如何处理。
- 在导出时,我是否需要再次将整个数据导出到报表中。如果是,我会怎么做。
在这种情况下请帮助我...
如果你有,请建议我更好的解决方案..
【问题讨论】:
标签: postgresql hadoop sqoop