【问题标题】:De-identified data from BigQuery with DLP使用 DLP 从 BigQuery 中去识别数据
【发布时间】:2020-08-15 04:12:24
【问题描述】:

我想使用 Google DLP 对已在 BiqQuery 中的我的 PII 数据进行去标识化,并将结果存储在 BigQuery 中的另一个表中。那可能吗 ?以及如何做到这一点?

【问题讨论】:

    标签: google-bigquery google-cloud-dlp


    【解决方案1】:

    【讨论】:

      【解决方案2】:

      DLP中De-Indentifying敏感数据的不同方法可以通过API来实现,比如我们可以用replaceConfig替换from:

      我的电子邮件地址是 astacko@example.com。

      我的电子邮件地址是 [email-address]。

      通过使用这样的 API 请求:

      "deidentifyConfig":{
          "infoTypeTransformations":{
            "transformations":[
              {
                "infoTypes":[
                  {
                    "name":"EMAIL_ADDRESS"
                  }
                ],
                "primitiveTransformation":{
                  "replaceConfig":{
                    "newValue":{
                      "stringValue":"[email-address]"
                    }
                  }
                }
              }
            ]
          }
        }
      

      因此,对于您的使用案例,您需要将去识别 API 集成到从 BigQuery 读取、执行去识别转换并写回 BigQuery 的流中。

      Cloud DLP in action 是一篇关于此问题的 Google 帖子。它指出了 Dataflow 来实现这个用例。请参阅此Reference Architecture 以了解其工作原理,您会在其中找到一些Java classes examples。您可以根据需要对其进行修改,以便将其提取到 BigQuery。

      【讨论】:

        【解决方案3】:

        作为一种快速解决方法,我会考虑将带有 PII 的表移动到访问受限的数据集中。然后,在一个新数据集中,创建一个不包含敏感列的视图。仅授予用户对包含视图的数据集的查询访问权限,而不是私有数据集。

        https://cloud.google.com/bigquery/docs/share-access-views

        【讨论】:

          猜你喜欢
          • 2020-12-11
          • 2021-10-30
          • 1970-01-01
          • 2022-11-19
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多