【发布时间】:2020-08-14 22:29:39
【问题描述】:
我有多个 txt 文件,每个文件有 100 万条记录(比如 10 个文件),这些文件保存在 LIST_OF_FILES.txt。
我创建了一个序列和并行作业来从这些文件中提取数据以加载到表中 (db2)。
想象一下,我已经完成了前 2 个文件。在加载第 3 个文件时(考虑到目前已将 10000 条记录加载到表中),并行作业因环境问题而中止。
现在我想从作业中止的 10001 加载记录。
工作设计
- 执行命令activity_1:
wc -l LIST_OF_FILES.txt. - 开始循环:Start:1 , Step: 1 , To: Execute command activity_1 的输出。
- 执行命令activity_2:
head -output_loop_counter LIST_OF_FILES.txt | tail -1. - 并行作业:提取作业以将记录从文件加载到表中。
- 执行命令activity_3:将提取的文件移动到另一个文件夹。
- 结束循环:上述步骤将一直持续到最后一个文件。
【问题讨论】: