【发布时间】:2020-06-13 23:51:02
【问题描述】:
我正在尝试构建一个管道,将数据从 Snowflake 发送到 S3,然后从 S3 发送回 Snowflake(通过 Sagemaker 上的生产 ML 模型运行它之后)。我是数据工程的新手,所以我很想听听社区的推荐路径是什么。管道要求如下:
- 我希望安排每月的工作。我是在 AWS 中还是在 Snowflake 端指定?
- 对于初始拉取,我想从 Snowflake 查询 12 个月的数据。但是,对于任何后续拉动,我只需要最后一个月,因为这应该是每月的管道。
- 所有月度数据拉取应存储在自己的 S3 子文件夹中,例如
query_01012020,query_01022020,query_01032020等。 - 应在 ML 模型成功对 Sagemaker 中的数据进行评分后触发从 S3 加载回指定 Snowflake 表的数据。
- 我想监控 ML 模型在生产中的性能,以了解模型是否正在降低其准确性(可能是一些类似校准的图表)。
- 我想在管道中出现问题时实时收到任何错误通知。
我希望您能够指导我完成这项工作的相关文档/教程。我非常感谢您的指导。
非常感谢。
【问题讨论】:
标签: amazon-web-services amazon-s3 etl pipeline snowflake-cloud-data-platform