【问题标题】:Most efficient way to clean data in BigQuery在 BigQuery 中清理数据的最有效方法
【发布时间】:2021-03-15 08:22:05
【问题描述】:

我需要一些帮助来清理我的数据...

我有一个 BQ 表,我从后端接收新条目,这些数据记录到我的 BQ 中,我正在使用 Google Data Studio 呈现这些数据。

我的问题是,我有一个名为 sessions 的字段有时是重复的,我无法直接在后端解决这个问题,因为用户可以从同一个会话发送不同的数据,所以我不能停止录制重复。

我通过创建一个选择最新重复记录的视图来解决我的问题,并且我正在使用这个视图作为我的报告的数据源。这种方法的问题是我失去了"real-time report" 的功能,这在这种情况下很重要。另一个问题是我也失去了Accelerated by BigQuery BI Engine,我也想拥有这些功能。

这是解决我的问题的最佳解决方案吗?我需要接受这个结果还是有其他方法?

提前非常感谢,亲切的问候。

【问题讨论】:

    标签: google-bigquery


    【解决方案1】:

    使用视图应该适用于 BI 引擎加速。您能否分享有关 BI Engine 的更多详细信息?它应该向您显示查询未加速的原因,可能提到了limitations 之一。如果您将鼠标悬停在“未加速”标志上,它应该会为您提供有关不支持您的查询的原因的更多详细信息。欢迎在这里分享,我很乐意为您提供帮助。

    清理数据的另一种方法:安排作业来预处理数据。这意味着数据可能不是最新的,但它使您能够清理和汇总数据。

    【讨论】:

      猜你喜欢
      • 2015-02-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-17
      • 1970-01-01
      • 2010-09-22
      • 2015-11-08
      • 1970-01-01
      相关资源
      最近更新 更多