【问题标题】:can graphite or grafana used to monitor pyspark metrics?石墨或grafana可以用来监控pyspark指标吗?
【发布时间】:2021-03-15 03:42:08
【问题描述】:

在 pyspark 项目中,我们有 pyspark dataframe.foreachPartition(func) 并且在该 func 中我们有一些 aiohttp 调用来传输数据。可以使用哪种类型的监控工具来监控数据速率、吞吐量、经过时间等指标?在这种情况下我们可以使用 statsd 和石墨或 grafana(如果可能的话,它们是首选)?谢谢。

【问题讨论】:

    标签: pyspark monitoring grafana graphite statsd


    【解决方案1】:

    这是我的解决方案。我使用 PySpark 的累加器在驱动节点的每个分区收集指标(http 调用次数、每次调用发送的有效负载等),将这些累加器的值分配给 statsDgauge 变量,并将这些指标发送到Graphite 服务器并最终在 Grafana 仪表板中将它们可视化。到目前为止效果很好。

    【讨论】:

    • 您找到从数据帧中提取计数的有效方法了吗?比如加载或保存的数量?
    • 是的,就像我提到的那样,我使用 Spark 的累加器来累积每个分区(执行程序)的指标,然后在驱动程序节点我可以将这些累积的指标分配给 statsDgauge 变量。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-16
    • 2014-11-08
    • 1970-01-01
    相关资源
    最近更新 更多