【问题标题】:GCP Datafusion repeating same data from GCSGCP Datafusion 重复来自 GCS 的相同数据
【发布时间】:2020-03-09 13:57:42
【问题描述】:

我有一个管道,它从存储中读取 20 个文件并从中提取每个文件的路径并加载到表中。理想情况下,记录数应该是 20,但是当我执行管道时,相同的记录一次又一次地传输,使总记录数无限增加。我想知道我是否在这里犯了任何错误。

【问题讨论】:

    标签: google-cloud-platform google-cloud-data-fusion cdap


    【解决方案1】:

    我只是复制了这个问题。我的猜测是您在 BigQuery 中为文件中的每条记录插入一条记录。例如,如果您选择 Blob 格式,那么每个文件将只有一条记录。

    【讨论】:

    • 我没有读取文件,我正在读取的文件是扩展名为 .dcm 的 DICOM 文件。我只想捕获文件的路径。即使只有文件,它也会无限循环并一次又一次地重复相同的数据。
    • 管道是如何配置的?您使用什么来源和转换来获取文件并将其插入表中?
    • 来源是 GCS。我给了一个桶路径(其中有 20 个 .dcm 图像),输出模式有路径和主体。转换是 javascript 插件(我只想选择路径),而 sink 是我发布数据的 HTTP 插件。
    • 在 javascript 转换期间添加一个日志以查看您是否只接收一次文件路径。另外,检查post端点中的http返回码,它可能因为http重试而重复。
    猜你喜欢
    • 2018-11-11
    • 1970-01-01
    • 2017-12-23
    • 1970-01-01
    • 1970-01-01
    • 2019-03-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多