【发布时间】:2023-03-04 18:36:01
【问题描述】:
我的项目正在过渡到一个新的 AWS 账户,我们正在尝试找到一种方法来保存我们的 AWS Glue ETL 书签。我们有大量已处理的数据要复制到新帐户,因此希望避免重新处理。
据我了解,Glue 书签只是后端的时间戳,理想情况下,我们可以获取旧书签,然后手动为新 AWS 账户中的匹配作业设置书签。
看起来我可以使用以下方法通过 AWS CLI 获取现有书签:
get-job-bookmark --job-name <value>
(Source)
但是,我一直找不到任何可能的方法来设置新帐户中的书签。
就解决方法而言,我最好的选择似乎是:
- 为我们的 Glue 爬虫上的所有 S3 数据源添加排除模式,但这将不再允许我们通过 Glue 目录(我们目前用于跟踪记录和归档)跟踪任何现有的未处理数据算)。这看起来是迄今为止最好的选择......
- 尝试在抓取新帐户中的旧(复制)数据之前运行 Glue ETL 作业,将书签设置为超过我们复制的 S3 对象的创建时间。然后,一旦我们爬取复制的数据,ETL 作业将认为它们比当前书签时间更早,并且不会在下一次运行时处理它们。但是,这个 hack 似乎不起作用,因为我在测试时最终处理了所有数据。
在这里真的很茫然,AWS Glue 论坛是一座鬼城,过去没有提供任何帮助。
【问题讨论】:
标签: amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark