【发布时间】:2015-05-19 13:52:06
【问题描述】:
希望有一个基于 Hive 分区中数据集的可用性运行的作业。我已经让它工作了,但现在我希望它运行,这样我的所有提要都在标称时间运行,但总是会延迟一天运行。因此,如果今天是 5 到 19 日,那么 5 到 19 日的所有提要都需要在那里,除了一个,我们需要 5 到 18 日。
这是我目前拥有的:
<dataset name="mvHost" frequency="${coord:days(1)}" initial-instance="${jobStart}" timezone="America/New_York">
<uri-template>${nameNode}/apps/hive/warehouse/uat_db.db/mv_host/create_date=${YEAR}${MONTH}${DAY}</uri-template>
<done-flag></done-flag>
</dataset>
<!-- ensure MV_INTERFACE exists on partition date, need to delay by ONE day -->
<dataset name="mvInterface" frequency="${coord:days(1)}" initial-instance="${jobStart}" timezone="America/New_York">
<uri-template>${nameNode}/apps/hive/warehouse/uat_db.db/mv_interface/create_date=${YEAR}${MONTH}${DAY}</uri-template>
<done-flag></done-flag>
</dataset>
</datasets>
<input-events>
<data-in name="input1" dataset="mvHost">
<instance>${coord:current(0)}</instance>
</data-in>
<data-in name="input2" dataset="mvInterface">
<instance>${coord:current(0)}</instance>
</data-in>
</input-events>
灌输延迟的最佳方法是什么?我尝试将实例编辑为 ${coord:current(-24)} 但失败了。另外,我尝试在 MV_INTERFACE 的初始实例上使用 coord:dateOffset ,但协调器永远不会构建。
有什么建议吗?
【问题讨论】: