【问题标题】:dbt table coverage metricdbt 表覆盖率指标
【发布时间】:2020-09-16 10:54:12
【问题描述】:

鉴于我有一个数据仓库,其中包含从各种来源创建的各种表,其中许多表是由 dbt 创建的,我想衡量一个概念,如“dbt 表覆盖率”,我将其定义为:

dtc = count(tables and views that exist) / count(non ephemeral models and sources)

这对于保持质量/完整性感非常有用,尤其是在过渡项目期间。有没有类似的dbt命令:

dbt report table-coverage --schemas=['reporting','example']
>>> 96% coverage, 48/50 tables in the schemas provided are captured in dbt. 

如果没有,我们如何将它添加到项目中?!

我可以采取哪些替代方法来解决问题

【问题讨论】:

  • 嘿 jabberwocky - 你也可以在这里添加你的平台吗? (雪花、bigquery 等)有助于回答问题。
  • 当然。我实际上正在使用这里的适配器运行 sql-server - github.com/mikaelene/dbt-sqlserver,很快就会切换到 Azure Synapse。

标签: data-warehouse dbt


【解决方案1】:

为此,我可能会创建一个模型(视图)来查询 information_schema,并对 {sourceTableName}stg_{sourceTableName} 的一对一映射做出一些假设(假设这意味着您的覆盖范围)。

此外,我会考虑使用 graph.sources.values() JINJA 函数来遍历项目中所有记录的源,然后将其与 {target.schema} 中的每个模型进行比较

https://docs.getdbt.com/reference/dbt-jinja-functions/graph#accessing-sources

如果您将source.schema.yml 的存在与source.information_schema 进行比较。我会改变方法,考虑将图中的每个项目与源数据库上 information_schema 中的项目总数进行映射。

【讨论】:

  • 接受了这个,因为 graph.sources.values() 是我需要的灵感,只是用 .nodes 代替!
【解决方案2】:

这里有几个想法,因为这对我目前的情况也很有趣:

  1. dbt 不提供查询输出或将结果返回到命令行。 (据我所知!)因此,如果此时有 1 个本质上不受支持的功能。即dbt reportdbt query 尚不存在。如果需要,我建议在这里构建一个功能请求: https://github.com/fishtown-analytics/dbt/issues

  2. 如果您可以在 dbt 中制作模型,然后通过您选择的客户端执行该模型,那么让我们试一试。 (我正在使用 postgres,所以相应地转换)

    WITH schema_map as
       (select schemaname as schema,
        tablename as name,
        'Table' as Type,
        CASE WHEN schemaname like '%dbt%' THEN 1
         ELSE 0 END as dbt_created
        from pg_tables
    WHERE NOT schemaname = ANY('{information_schema,pg_catalog}')
    UNION
    select schemaname as schema,
        viewname as name,
        'View' as Type,
        CASE WHEN schemaname like '%dbt%' THEN 1
             ELSE 0 END as dbt_created
        from pg_views
     WHERE NOT schemaname = ANY('{information_schema,pg_catalog}') )
     SELECT count(name) as total_tables_and_views,
        sum(dbt_created) as dbt_created,
        to_char((sum(dbt_created)::dec/count(name)::dec)*100,'999D99%') as dbt_coverage
     FROM schema_map
    

给出结果:

total_tables_and_views | dbt_created | dbt_coverage
391                    |292          |  74.68%

【讨论】:

  • 这似乎依赖于完全隔离的 dbt 模式,这在我的用例中不可用。
  • 了解 - 您是否有专门的 dbt“用户”来创建或拥有架构/表等?
  • 有一个特定的用户在生产环境中创建视图/表等...我不能保证在 CLI 上使用 --prod arg 的用户创建了 0 个表。但将来可以瞄准它,这是一个合理的假设。架构不是由同一个用户创建的(目前在现有设置的后面加上 dbt)
【解决方案3】:

只是为了回馈社区,感谢 Jordan 和 Gscott 的启发。我为 SQL Server/ Synapse 执行的解决方案是:

  1. INFORMATION_SCHEMA.TABLES 和 dbt 图中的模型计数作为一个表每日执行。
  2. 建立在 1 之上的增量表,用于选择感兴趣的模式和聚合。在下面的例子中,我过滤掉了暂存和测试。

DbtModelCounts:


{% set models = [] -%}

{% if execute %}
  {% for node in graph.nodes.values()
    | selectattr("resource_type", "equalto", "model")
    %}
        {%- do models.append(node.name) -%}

  {% endfor %}
{% endif %}

with tables AS
(
SELECT table_catalog [db], table_schema [schema_name], table_name [name], table_type [type]
FROM INFORMATION_SCHEMA.TABLES
),
dbt_tables AS
(
SELECT *
FROM tables
WHERE name in (
    {%- for model in models %}
    ('{{ model}}') 
    {% if not loop.last %},
    {% endif %}
    {% endfor %}
    )
)
SELECT
    tables.db, 
    tables.schema_name,
    tables.type,
    COUNT(tables.name) ModelCount,
    COUNT(dbt_tables.name) DbtModelCount
FROM tables
LEFT JOIN dbt_tables ON
    tables.name=dbt_tables.name AND
    tables.schema_name = dbt_tables.schema_name AND
    tables.db = dbt_tables.db AND 
    tables.type = dbt_tables.type
GROUP BY
    tables.db,
    tables.schema_name,
    tables.type

数据库覆盖率:

{{
  config(
    materialized='incremental',
    unique_key='DateCreated'
  )
}}
SELECT 
    CAST(GETDATE() AS DATE) AS DateCreated,
    GETDATE() AS DateTimeCreatedUTC,
    SUM(DbtModelCount) AS DbtModelCount, 
    SUM(ModelCount) AS TotalModels,
    SUM(DbtModelCount)*100.0/SUM(ModelCount) as DbtCoveragePercentage
FROM {{ref('DbtModelCounts')}}
WHERE schema_name NOT LIKE 'testing%' AND schema_name NOT LIKE 'staging%'

为此,为已定义的源添加逻辑,以计算映射到我的暂存或原始模式表的源的百分比。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-11-13
    • 2015-06-14
    • 1970-01-01
    • 2012-09-25
    • 1970-01-01
    • 2010-11-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多