【发布时间】:2020-03-09 13:57:42
【问题描述】:
我有一个管道,它从存储中读取 20 个文件并从中提取每个文件的路径并加载到表中。理想情况下,记录数应该是 20,但是当我执行管道时,相同的记录一次又一次地传输,使总记录数无限增加。我想知道我是否在这里犯了任何错误。
【问题讨论】:
标签: google-cloud-platform google-cloud-data-fusion cdap
我有一个管道,它从存储中读取 20 个文件并从中提取每个文件的路径并加载到表中。理想情况下,记录数应该是 20,但是当我执行管道时,相同的记录一次又一次地传输,使总记录数无限增加。我想知道我是否在这里犯了任何错误。
【问题讨论】:
标签: google-cloud-platform google-cloud-data-fusion cdap
我只是复制了这个问题。我的猜测是您在 BigQuery 中为文件中的每条记录插入一条记录。例如,如果您选择 Blob 格式,那么每个文件将只有一条记录。
【讨论】: