【发布时间】:2017-04-12 17:54:23
【问题描述】:
我的上下文是;
晚上有 10 个 csv 文件上传到我的服务器。
我的流程是:
-
摄取:
- 将文件放到 HDFS 上
- 创建 ORC Hive 表并在其上放置数据。
-
处理:
- Spark 处理:转换、清理、加入 ....
- 很多链式步骤(Spark Job)
我正在寻找自动化第一部分并触发第二部分的最佳实践。
- Cron、sh、dfs 放。
- 奥齐?
- 阿帕奇尼菲?
- 水槽?
- 电话:(
我也看到了https://kylo.io/,它很完美,但我认为将它投入生产还很年轻。
提前致谢。
【问题讨论】:
-
这个答案有帮助吗?您有后续问题吗?
-
帮助,感谢您的回复。
标签: hadoop apache-nifi data-ingestion