【发布时间】:2010-09-13 03:41:40
【问题描述】:
我是我公司的一个非常敏感的系统的主要开发人员。这段代码设计得很好,但它有一些缺陷,使它有点不稳定。我们当然正在努力修复导致稳定性问题的缺陷,但与此同时,我们有时会出现一些问题。 “错误”的事情发生“错误”可能对公司非常不利,因此我们必须在此期间快速识别和解决问题。从长远来看,我希望有一个自动监控系统来对数据和其他事情进行完整性检查,以便在问题发生时通知我们。现在,虽然为了确保在我们到达那一点之前不会发生任何灾难性的事情,我正在寻求一些建议。
我们每天都会运行几项检查(主要是可以通过简单的 SQL 查询完成的数据检查)。其他应该每周运行,其他每月运行。过去,我将这些查询提供给其他人,并以确保它们在需要时运行为他们的工作。不幸的是,人类是不完美的,并且不可避免地会发生翻身,我们似乎总是最终发现一些比我们希望的更晚发生的事情,因为这些手动检查中的一项或多项没有运行。有人可以提供建议或让我知道一个可以帮助我管理这些脚本的应用程序,或者一个可以为我完成其中一些工作的现有应用程序吗?在这一点上,我唯一的选择是免费的应用程序,但如果有人对某些不免费的东西提出建议,我会将其列入稍后考虑的事项列表。我知道我的公司有一个开放式 NMS 监控系统,但负责人不会放弃对我的任何控制权,以便我可以为我的系统配置它,同时他们不会响应我设置监控的请求一点也不。我的公司过去也使用过 Nagios,但我认为这些都不能完全满足我的要求,因为我主要不是在寻找网络监控。
感谢任何帮助/建议。
【问题讨论】:
标签: monitoring