【问题标题】:Calculate Total Pipeline latency (Cloud Functions -> Pub/Sub -> Dataflow -> BQ)计算总管道延迟(Cloud Functions -> Pub/Sub -> Dataflow -> BQ)
【发布时间】:2019-11-20 22:45:46
【问题描述】:

我目前在 GCP 中有一个管道,它使用 Cloud 函数提取数据,将其存入 PubSub,在 Dataflow 中处理,最后将其插入 BigQuery。我正在尝试计算一条平均消息从 Cloud Function 提取到 BigQuery 需要多长时间(包括插入时间)。

我知道 Stackdriver 指标/仪表板以及 GCP 的 API 仪表板。我很想简单地将每个服务的所有延迟值相加,但我不确定它是否涵盖了我无法控制的延迟(例如插入到 BQ、从数据流推送到 pubsub 等...)

哪些可用指标可以帮助我计算整体管道延迟?如果管道的一部分无法计算,有没有办法估计它或使用外部工具来计算它?

【问题讨论】:

    标签: google-cloud-platform google-api google-bigquery google-cloud-dataflow stackdriver


    【解决方案1】:

    Dataflow 显示一个称为“系统滞后”的指标,它表示 Dataflow 流水线的端到端延迟。这应该有助于您了解管道的 PubSub(output) -> Dataflow -> BQ 部分的延迟。

    虽然我自己没有使用过,但您可以使用 Stackdriver Trace 来跟踪 Cloud Function 中的一些事件,并在 Dataflow 提取相同的事件时对其进行跟踪。这将允许您测量管道的 Cloud Functions -> PubSub(in) -> PubSub(output) 部分的延迟。

    LMK 如果这似乎是一条有趣的研究路径,我们可以尝试以此为基础。

    【讨论】:

    • System Lag 包含从 pubsub 到 Dataflow 的时间是有道理的,但要确认,它还包括 BQ 插入时间?我不知道 Stackdriver Trace!我会调查一下,让你知道结果如何!
    猜你喜欢
    • 2019-07-23
    • 2021-06-09
    • 2019-07-26
    • 1970-01-01
    • 2022-01-01
    • 2023-04-02
    • 2021-04-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多