【发布时间】:2020-04-08 23:34:27
【问题描述】:
我正在使用 aws Sagemaker 端点进行推理。根据流量,端点应通过向端点添加更多实例来扩大和缩小规模。我正在尝试使用实例指标(CPUUtilization、MemoryUtilization 或 DiskUtilization)作为 sagemaker 端点自动缩放的指标。这些是此处定义的预定义指标:https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipeline-logs-metrics.html
问题在于给定端点的实例指标是端点内所有正在运行的实例的总和。例如,在以下端点运行时设置中:
当前正在运行的实例为 5,则 CPUUtilization 的值范围为 0 到 500%。根据运行的实例数量,最大值将发生变化,因此应该更改自动缩放策略。 问题是:有没有办法在不明确计算它们或通过自定义指标的情况下找出每个实例的指标,即 CPUUtilizationPerInstance? 通过在每个实例 CPUUtilization 上设置阈值来自动缩放策略似乎是正确的方法。在 aws 上还有其他类似的选项吗?
【问题讨论】:
-
您能否将警报更改为基于“平均”而不是“总和”进行评估?
-
@Shahad cloudwatch 提供此类指标的每次统计数据。例如,每 1 分钟的平均 CPUUtilization。它不提供每个实例的任何此类统计信息。
标签: amazon-web-services amazon-cloudwatch autoscaling amazon-sagemaker