【发布时间】:2020-08-15 04:12:24
【问题描述】:
我想使用 Google DLP 对已在 BiqQuery 中的我的 PII 数据进行去标识化,并将结果存储在 BigQuery 中的另一个表中。那可能吗 ?以及如何做到这一点?
【问题讨论】:
标签: google-bigquery google-cloud-dlp
我想使用 Google DLP 对已在 BiqQuery 中的我的 PII 数据进行去标识化,并将结果存储在 BigQuery 中的另一个表中。那可能吗 ?以及如何做到这一点?
【问题讨论】:
标签: google-bigquery google-cloud-dlp
【讨论】:
DLP中De-Indentifying敏感数据的不同方法可以通过API来实现,比如我们可以用replaceConfig替换from:
我的电子邮件地址是 astacko@example.com。
到
我的电子邮件地址是 [email-address]。
通过使用这样的 API 请求:
"deidentifyConfig":{
"infoTypeTransformations":{
"transformations":[
{
"infoTypes":[
{
"name":"EMAIL_ADDRESS"
}
],
"primitiveTransformation":{
"replaceConfig":{
"newValue":{
"stringValue":"[email-address]"
}
}
}
}
]
}
}
因此,对于您的使用案例,您需要将去识别 API 集成到从 BigQuery 读取、执行去识别转换并写回 BigQuery 的流中。
Cloud DLP in action 是一篇关于此问题的 Google 帖子。它指出了 Dataflow 来实现这个用例。请参阅此Reference Architecture 以了解其工作原理,您会在其中找到一些Java classes examples。您可以根据需要对其进行修改,以便将其提取到 BigQuery。
【讨论】:
作为一种快速解决方法,我会考虑将带有 PII 的表移动到访问受限的数据集中。然后,在一个新数据集中,创建一个不包含敏感列的视图。仅授予用户对包含视图的数据集的查询访问权限,而不是私有数据集。
【讨论】: