【发布时间】:2017-03-31 22:23:12
【问题描述】:
我有以下要求:
有一个上游系统在数据库表中创建一个键条目。该条目表明数据库表(oracle)中有一组数据可用。我们必须摄取这些数据并将其保存为 parquet 文件。无需处理数据。每次有新的密钥条目可用时,该摄取过程都应该开始。
对于这个问题陈述,我们计划有一个数据库轮询器来轮询键条目。读取该条目后,我们需要从 Oracle 表中提取数据。对于这个摄取目的,哪个工具最好?是 Kafka、Sqoop、Spark-SQL 等吗?请帮忙。
我们还需要摄取 csv 文件。只有当一个文件被完全写入时,我们才需要开始摄取它。请告诉我如何执行此操作。
【问题讨论】:
标签: apache-spark apache-kafka apache-spark-sql sqoop