【发布时间】:2021-02-08 17:04:33
【问题描述】:
我们目前有一个在 AWS Sagemaker 上运行的系统,其中几个单元拥有自己训练的机器学习模型工件(使用带有 Sagemaker SKLearn 估计器的 SKLearn 训练脚本)。
通过使用 Sagemaker 的多模型端点,我们能够在一个实例上托管所有这些单元。
我们遇到的问题是,我们需要扩展这个系统,以便我们可以为数十万个单元训练单个模型,然后在多模型端点上托管生成的模型工件。但是,Sagemaker 对您可以并行训练的模型数量有限制(我们的限制是 30)。
除了批量训练我们的模型之外,有没有人知道如何在 AWS Sagemaker 中实施一个系统,从而为数十万个单元提供一个单独的训练模型工件?
有没有办法使用 SKLearn 估计器为 1 个 sagemaker 训练作业输出多个模型工件?
此外,Sagemaker 在提交训练脚本时如何利用多个 CPU?这必须在训练脚本/估计器对象中指定还是自动处理?
【问题讨论】:
标签: python amazon-web-services machine-learning scikit-learn amazon-sagemaker