【发布时间】:2010-02-01 22:04:28
【问题描述】:
我有几百个网络设备每 10 分钟检查一次我们的服务器。每个设备都有一个嵌入式时钟,在每次签入服务器时计算秒数并报告经过的秒数。 所以,样本数据集看起来像
CheckinTime Runtime
2010-01-01 02:15:00.000 101500
2010-01-01 02:25:00.000 102100
2010-01-01 02:35:00.000 102700
等等
如果设备重新启动,当它检查回服务器时,它会报告运行时间为 0。
我试图确定的是设备“健康”的某种可量化指标。
如果设备在过去多次重启但在过去 xx 天内未重启,则与除过去 xx 天反复重启外的正常运行时间较长的设备相比,它被认为是健康的。 此外,与在过去 xx 天内每 24 小时左右不断重启的设备相比,已启动 30 天并刚刚重启的设备不应被视为“故障”。
我尝试了多种计算健康状况的方法,使用了多种指标: 1.平均重启次数 2. 最大(正常运行时间) 3. 平均(正常运行时间) 4. 过去 24 小时内的重启次数 5. 最近 3 天的重启次数 6. 过去 7 天的重启次数 7. 过去 30 天内的重启次数
每个单独的指标仅考虑设备运行状况的一个方面,但不考虑与其他设备或当前运行状况相比的整体运行状况。
任何想法都将不胜感激。
【问题讨论】:
标签: algorithm statistics formula