【问题标题】:Trigger a job when a file is moved in hdfs(hadoop) directory当文件在 hdfs(hadoop) 目录中移动时触发作业
【发布时间】:2014-03-10 17:50:32
【问题描述】:

我想在 Hadoop 分布式文件系统中将文件传输到特定目录(通过水槽)时触发作业(hive 或 pig 或 oozie..etc)。有可能吗?

【问题讨论】:

    标签: hadoop hdfs jobs flume oozie


    【解决方案1】:

    间接是可能的。 Oozie 不支持纯数据可用性触发器。您必须以某种频率设置循环流,并添加数据可用性作为附加条件。

    这是一个关于 Oozie 的常见问题,不幸的是文档很糟糕。

    【讨论】:

    • 一些频率意味着——在一个特定的间隔?如果我使用flume java api进行传输。是否可以通过该api触发它?
    • Frequency: oozie.apache.org/docs/3.3.2/… 您创建一个协调器来执行具有特定频率的工作流,例如每天下午 5 点一次。由于数据可用性条件(指定为输入事件:oozie.apache.org/docs/3.3.2/…),工作流将仅在数据可用时运行。 Oozie 还提供了一个 API,您可以使用它来启动工作流(无需协调器)——我猜您可以在 Flume 传输后从 Java 中执行此操作。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-01-19
    相关资源
    最近更新 更多