【发布时间】:2015-10-10 14:00:58
【问题描述】:
数据流管道完成运行后是否可以在 GCS 中移动文件?如果是这样,怎么做?应该是最后一个.apply?我无法想象会是这样。
这里的情况是我们从客户端导入大量 .csv。我们需要无限期地保留这些 CSV,因此我们需要“将 CSV 标记为已处理”,或者将它们移出 TextIO 用于查找 csv 的初始文件夹。我目前唯一能想到的是将文件名存储在 BigQuery 中(我不确定我是如何得到这个的,我是 DF 新手),然后从执行中排除已经存储的文件管道不知何故?但必须有更好的方法。
这可能吗?我应该检查什么?
感谢您的帮助!
【问题讨论】: