【问题标题】:How to do - wildcard search in Data Catalog (Google Cloud Platform)怎么做 - 数据目录中的通配符搜索(谷歌云平台)
【发布时间】:2020-11-22 22:32:48
【问题描述】:

如何在数据目录(谷歌云平台)中执行通配符/正则表达式搜索?

  • 跨列名和标签属性(以及那里的值)搜索元数据是有意义的。

目前的documentation 只列出了非常严格的搜索行为 例如对于标签:data_gov_template.hasPII(=true)

  • 需要“PII”的结果 - 我不关心指定确切的模板名称等。

例如标签:etl

  • 如果我只搜索 etl 没有结果

(元数据/属性和值不能直接搜索?)

【问题讨论】:

  • 根据您共享的文档,您可以使用 name:x ,它将匹配与谓词 x 匹配的所有实体。所以这种行为它类似于通配符。它解决了你的问题吗? Here 概述了 Data Catalog 的工作原理。
  • 我用示例更新了我的问题。你说得对,谓词“x”非常广泛(而不是受控和精确的搜索)
  • 例如'column:difference.old_mode' 不起作用,即使它是列的确切名称
  • @AlexandreMoraes 文档有时说的不多,有时也不正确。有趣的是谷歌内部他们对数据目录当前状态的看法(例如 22:50)youtube.com/watch?v=gCXgZ5ZkJeI
  • 阅读您的更新后,为了使 label:ets 工作,您的数据资产应该被标记,例如 BigQuery 的说明。您是否标记了要检索的数据资产? label:etl 返回具有此标签且标签键具有 etl 作为子字符串的数据资产。

标签: search google-cloud-platform metadata governance-registry google-data-catalog


【解决方案1】:

根据您的用例,我了解到您想要搜索特定的元数据属性,例如标签字段PII,对吗?

对于标记资产

如果您不关心模板名称。您可以使用 tag:x 搜索方面。

因此,如果您的所有模板 data_gov_templatedata_curator_templatedata_etl_template 都包含相同的标签字段名称 has_pii,则可以使用以下方法进行搜索:

tag:has_pii,这将返回具有该元数据属性的所有资产,无论模板名称是什么。

对于列

您可以使用column:x 搜索构面来匹配数据资产架构中列名的子字符串。尚不支持嵌套列。

对于标签

您可以使用 labels:bar 搜索具有标签(具有某些值)且标签键具有 bar 作为子字符串的数据资产。

您还可以搜索它们的值。所以是的,元数据/属性和值是可搜索的。

但它不是 regex 类型,当搜索方面使用冒号 : 时,它是子字符串匹配,如 labels:bar 或当搜索方面使用等于 = 时是完全匹配,比如type=table

【讨论】:

猜你喜欢
  • 2018-05-27
  • 2017-08-08
  • 2018-06-26
  • 2017-12-08
  • 2020-06-02
  • 2019-10-31
  • 2016-08-23
  • 1970-01-01
  • 2018-01-10
相关资源
最近更新 更多