Hadoop 摄取自动化技术答案

【问题标题】：Hadoop Ingestion automation techniquesHadoop 摄取自动化技术
【发布时间】：2017-04-12 17:54:23
【问题描述】：

我的上下文是；

晚上有 10 个 csv 文件上传到我的服务器。

我的流程是：

我正在寻找自动化第一部分并触发第二部分的最佳实践。

我也看到了https://kylo.io/，它很完美，但我认为将它投入生产还很年轻。

提前致谢。

【问题讨论】：

【解决方案1】：

Oozie 和 Nifi 都将与水槽、蜂巢和火花动作结合使用。

所以您的（Oozie 或 Nifi）工作流程应该像这样工作

cron 作业（或时间表）启动工作流。
工作流程的第一步是 Flume 进程，将数据加载到所需的 HDFS 目录中。您可以在不使用 Flume 的情况下仅使用 HDFS 命令执行此操作，但这将有助于您的解决方案在未来保持可扩展性。
用于创建/更新表的配置单元操作
Spark 操作以执行您的自定义 Spark 程序

确保通过适当的日志记录和通知处理工作流中的错误处理，以便您可以在生产中优化工作流。

【讨论】：