【发布时间】:2015-11-11 06:21:23
【问题描述】:
我们计划使用 REST API 调用从端点提取数据并将数据存储到 HDFS。 REST 调用以定期方式(每天或每小时)完成。
我已经使用 Flume 完成了 Twitter 摄取,但我认为使用 Flume 不适合我当前的用例,因为我没有在 Twitter 中使用像这样的连续数据 Firehose,而是离散的定期时间限制调用。
我现在的想法是使用自定义 Java 来处理 REST API 调用并保存到 HDFS,然后在该 Java jar 上使用 Oozie 协调器。
我想听听有关设计以及用于此用例的基于 Hadoop 的组件的建议/替代方案(如果有比我现在想的更容易的话)。如果你觉得我可以坚持 Flume,那么请给我一个想法。
【问题讨论】:
标签: rest hadoop data-ingestion