【问题标题】:Alert in splunk based on remediation condition基于修复条件的 splunk 警报
【发布时间】:2021-09-24 06:27:27
【问题描述】:

我正在尝试在 splunk 中创建警报,这样如果日志中出现“由于连接而发生错误”的表述,并且如果在 5 分钟后没有自动修复,它应该会生成警报。

这里的补救措施可以是如果在警报生成后的五分钟内没有出现“由于连接而发生错误”,则表示问题已修复。 这可能吗?请指导。

【问题讨论】:

    标签: amazon-web-services monitoring amazon-eks splunk splunk-query


    【解决方案1】:

    如果“由于连接而发生错误”消息每 5 分钟出现一次,直到问题得到纠正,那么您应该能够通过计算过去 6 分钟内的消息数量来检测补救措施。

    index=foo "Error occured due to connection" earliest=-6m
    | stats count
    | where count > 1
    

    【讨论】:

    • 我们可以在 5 分钟内收到多条消息。就像我们收到连接错误一样,它可能会自动解决。基本上我们给它 5 分钟的时间来治愈自己,然后在第 6 分钟我们可以检查计数是否 > 0。有没有办法我们在这里添加第 6 分钟而不是最后 6 分钟。当我们在过去 5 分钟内出现连接错误时,我们应该如何检查此场景是否已测试
    • 或者我们可以在第 6 分钟计数 > 在第 5 分钟计数
    • 是否可以计算时间。假设我的当前时间是 2021 年 9 月 27 日 09:45:50,那么我想计算前 5 分钟的数据,即 9.40.50 到 9:45:50 和 9:35:50 到 9:40:50 时间的数据。 ..你能帮我解决这样的问题吗?
    • 你能帮忙
    【解决方案2】:

    由于需求不断变化,因此不清楚期望的结果是什么。也许这将有助于解决问题。

    index=foo "Error occured due to connection" earliest=-15m
    | bin span=5m _time
    | stats count by _time
    | ```something else to get the final results```
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-08-05
      • 1970-01-01
      • 2022-07-29
      • 1970-01-01
      • 1970-01-01
      • 2018-01-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多