aws Sagemaker 使用每个实例的实例指标自动扩展答案

【问题标题】：aws Sagemaker autoscaling with instance metrics per instanceaws Sagemaker 使用每个实例的实例指标自动扩展
【发布时间】：2020-04-08 23:34:27
【问题描述】：

我正在使用 aws Sagemaker 端点进行推理。根据流量，端点应通过向端点添加更多实例来扩大和缩小规模。我正在尝试使用实例指标（CPUUtilization、MemoryUtilization 或 DiskUtilization）作为 sagemaker 端点自动缩放的指标。这些是此处定义的预定义指标：https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipeline-logs-metrics.html

问题在于给定端点的实例指标是端点内所有正在运行的实例的总和。例如，在以下端点运行时设置中：

当前正在运行的实例为 5，则 CPUUtilization 的值范围为 0 到 500%。根据运行的实例数量，最大值将发生变化，因此应该更改自动缩放策略。问题是：有没有办法在不明确计算它们或通过自定义指标的情况下找出每个实例的指标，即 CPUUtilizationPerInstance？通过在每个实例 CPUUtilization 上设置阈值来自动缩放策略似乎是正确的方法。在 aws 上还有其他类似的选项吗？

【问题讨论】：

您能否将警报更改为基于“平均”而不是“总和”进行评估？
@Shahad cloudwatch 提供此类指标的每次统计数据。例如，每 1 分钟的平均 CPUUtilization。它不提供每个实例的任何此类统计信息。

标签： amazon-web-services amazon-cloudwatch autoscaling amazon-sagemaker

【解决方案1】：

当您使用“Sum”统计信息时，有一个 InvocationsPerInstance 指标显示每个实例的平均调用次数。

https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html

这篇博文详细介绍了您将如何对端点进行负载测试以找到 InvocationsPerInstance 用于自动缩放的良好目标值：https://aws.amazon.com/blogs/machine-learning/load-test-and-optimize-an-amazon-sagemaker-endpoint-using-automatic-scaling/

【讨论】：

每个实例不使用调用有多种原因。例如，对于每个区域/类型的端点实例，我们必须校准新的度量阈值。每当我们想要更改功能或模型本身时，我们都必须再次这样做。这就是为什么首选 CPUUtilization、Memory、DiskSpace 或所有这些指标的组合等内在指标的原因。

【解决方案2】：

blog post 描述了如何定义自定义指标来跟踪每个实例的平均 CPU 利用率。

tl;博士

    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 90.0,
        'CustomizedMetricSpecification':
        {
            'MetricName': 'CPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value': endpoint_name },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average', # Possible - 'Statistic': 'Average'|'Minimum'|'Maximum'|'SampleCount'|'Sum'
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 300
    }

【讨论】：