【发布时间】:2014-08-04 18:33:00
【问题描述】:
预警:我是数据科学/数据工程师/hadoop 领域的新手;我一直在寻找将大量数据(数百万行)导入我们设置的 Hadoop 集群的解决方案。数据库是Oracle,我一直在探索很多方法来运行这样的工作;最终目标是尽可能接近集群内数据的实时导入。
我在这里看到的第一个工作是通过使用 sqlplus 的 shell 文件。我创建了这个 sql 脚本来运行并将表和日期作为工作参数,然后为我们希望每天在集群中查看的特定表运行 shell 脚本。然后可以安排此任务在每晚自动执行。这种方法的问题在于,它的速度似乎太慢了。据我所知,UTL_FILE 和 Pro*C 同样慢。
这让我发现了我们已经安装的 Sqoop,但我不明白为什么它比 sqlplus 快得多。使用 SQLPlus,我只需选择表语句并将其假脱机到一个文本分隔的文件(比如 csv)中。这是一个过程。在 Sqoop 中,它是如何进行多个并行调用的?
任何对此问题的见解将不胜感激!
【问题讨论】:
标签: sql oracle hadoop sqlplus sqoop