【发布时间】:2018-10-27 21:15:20
【问题描述】:
我有一个大约有 30 个表的 oracle 表。我想将这些表中特定时间段的数据转储到 EMR 集群中,并运行我对数据的配置单元查询。我想使用 spark 和 AWS EMR 来执行此操作。这将是一个需要每 4 小时运行一次的计划作业。获取的数据量大约为 100 条记录(每 4 小时)。如何从 oracle 获取数据并对数据运行 hive 查询?
【问题讨论】:
标签: oracle amazon-web-services apache-spark sqoop amazon-emr