【问题标题】:Setting up a BigQuery to Google Cloud Storage pipeline with overwriting通过覆盖设置 BigQuery 到 Google Cloud Storage 管道
【发布时间】:2020-03-03 02:45:19
【问题描述】:

我正在尝试在 Data Fusion 中设置一个非常简单的管道,该管道从 BigQuery 获取一个表,然后将该数据存储到 Google Cloud Storage 中。通过下面的管道设置,它相当容易。我们首先读取 bigquery 表和架构,然后将数据放入 Google Cloud Storage 存储桶中。这可行,但问题是我运行的每个新传输都会创建一个新地图和一个新文件。我想做的是在每次进行新传输时覆盖同一文件路径中的单个文件。

我在此设置中遇到的问题是,在使用时间戳前缀创建的 Google Cloud Storage 中获取了一个新地图和一个新文件。查看下面的接收器配置,事实上,默认情况下您会看到一个时间戳。

好的,这意味着如果我删除前缀,则不应创建新地图。悬停确认了这一点:“如果未指定,则不会将任何内容附加到路径”。

但是,当我清除此值然后保存时,全时格式会再次自动弹出。我不能使用静态值,因为这会导致错误。例如,我刚刚尝试在 Google Cloud Storage 中创建一个编号为“12”的地图,然后将前缀设置为此,但正如您所猜测的那样,这不起作用。还有其他人遇到这个问题吗?如何去掉路径后缀,这样我就不会为 Google Cloud Storage 中的每个时间戳获取新地图?

【问题讨论】:

    标签: google-cloud-data-fusion


    【解决方案1】:

    这似乎是 Data Fusion UI 的问题。已为此 https://issues.cask.co/browse/CDAP-16129 提交 JIRA。

    我知道当您再次打开配置时这可能会造成混淆。发生这种情况的原因是,每当您打开配置模式时,我们都会使用插件小部件 json 中的默认值预填充字段(如果不存在值)。

    作为一种解决方法,您可以尝试一下,

    导出管道 - 配置插件中的所有属性后,您可以导出管道。此步骤应为您下载一个 JSON,您可以在其中找到属性并将其删除,然后导入管道并发布,而无需打开特定插件。

    或者,只需从插件配置模式中删除该属性,然后直接关闭并发布管道。每次打开插件配置时,UI 都会重新填充该值。删除并关闭模式后,它应保持该状态,直到您再次打开配置。

    希望这会有所帮助。

    【讨论】:

      猜你喜欢
      • 2019-05-29
      • 2021-08-22
      • 1970-01-01
      • 1970-01-01
      • 2022-10-23
      • 2013-05-18
      • 2014-12-05
      • 2020-01-19
      • 2015-08-28
      相关资源
      最近更新 更多