【问题标题】:Hadoop Ingestion automation techniquesHadoop 摄取自动化技术
【发布时间】:2017-04-12 17:54:23
【问题描述】:

我的上下文是;

晚上有 10 个 csv 文件上传到我的服务器。

我的流程是:

  • 摄取:

    • 将文件放到 HDFS 上
    • 创建 ORC Hive 表并在其上放置数据。
  • 处理:

    • Spark 处理:转换、清理、加入 ....
    • 很多链式步骤(Spark Job)

我正在寻找自动化第一部分并触发第二部分的最佳实践。

  • Cron、sh、dfs 放。
  • 奥齐?
  • 阿帕奇尼菲?
  • 水槽?
  • 电话:(

我也看到了https://kylo.io/,它很完美,但我认为将它投入生产还很年轻。

提前致谢。

【问题讨论】:

  • 这个答案有帮助吗?您有后续问题吗?
  • 帮助,感谢您的回复。

标签: hadoop apache-nifi data-ingestion


【解决方案1】:

Oozie 和 Nifi 都将与水槽、蜂巢和火花动作结合使用。

所以您的(Oozie 或 Nifi)工作流程应该像这样工作

  1. cron 作业(或时间表)启动工作流。

  2. 工作流程的第一步是 Flume 进程,将数据加载到所需的 HDFS 目录中。您可以在不使用 Flume 的情况下仅使用 HDFS 命令执行此操作,但这将有助于您的解决方案在未来保持可扩展性。

  3. 用于创建/更新表的配置单元操作

  4. Spark 操作以执行您的自定义 Spark 程序

确保通过适当的日志记录和通知处理工作流中的错误处理,以便您可以在生产中优化工作流。

【讨论】:

    猜你喜欢
    • 2017-02-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多