【发布时间】:2017-07-12 15:40:16
【问题描述】:
我的计划流程如下:
subJob1
/
tOracleInput -> tMap -> tReplicate -- subJob2
\
subJob3
这个想法是只为这个大的 sql 视图查询数据库一次,复制输出,然后传递给子作业,以便可以并行处理。还要概述子作业将要做什么:
componentToCatchOutputFromParent -> tMap -> tFileOutput
/
tOracleInput (query from view)
它的作用是查询sql view1(对于subjob1,不同的subjobs有不同的视图)(这应该是很轻的查询,重的查询是来自父级的,所以思路是运行父级的重查询一次并重复使用),使用主键外键概念将其与父级的输出连接,并输出到文件中。
这样做的目的是尝试通过最小化数据库调用来加速数据处理,并能够并行处理输出文件的生成。
这听起来像是一个计划。但是,我无法解决如何将 tReplicate 输出从父作业传递到子作业?同样,如何在 subjob 上捕获 parent 的输出,以便可以加入 tMap?
非常感谢任何想法。
非常感谢!!!
【问题讨论】: