【发布时间】:2012-07-23 08:29:10
【问题描述】:
我们有三个 EC2 实例,在 eu-west-1 区域的每个可用区 (AZ) 中都有一个。它们使用 ELB 进行负载平衡。我们想使用 CloudWatch 监控在负载均衡器上注册了多少实例。问题在于:我不太了解HealthyHostCount 指标。
对于部署,我们希望能够在不收到通知的情况下取消注册单个实例(将其从 LB 中取出)。所以警报会是:通知负载均衡器后面是否只有 1 个健康实例 5 分钟。
据我了解,HealthyHostCount (HHC) 是向给定 ELB 注册的健康实例数,是所有可用区的平均值。如果一切正常,HHC 应该为 1(无论在什么时间段内),因为每个 AZ 中都有 1 个实例。
几天前,有人在未重新注册实例的情况下进行部署,因此只有 1 个实例处于平衡状态。当我们注意到这一点时,我们创建了一个警报,当平均 HHC 在 5 分钟后降至 0.6 以下时通知我们。 (如果在 ELB 中只注册了 1 个实例,则 HHC 应在任何时间段内平均为 0.33。)但是,警报从未更改为状态“ALARM”。
当我在 CloudWatch 中检查 HHC 时,HHC 是没有意义的数字(我现在只记得 5 分钟间隔内 10.0 的总和)。
这对我来说是一团糟。每当我认为我理解该指标时,CloudWatch 图表对我来说都是胡言乱语。
谁能解释一下当只有一个实例注册时如何使用 HHC 来获取警报?平均 HHC 是可行的方法还是我应该使用其他指标?
【问题讨论】:
标签: amazon-ec2 amazon-web-services metrics amazon-elb amazon-cloudwatch