【问题标题】:AWS MySQL to GCP BigQuery data migrationAWS MySQL 到 GCP BigQuery 数据迁移
【发布时间】:2019-07-31 23:31:51
【问题描述】:

我正在计划从 AWS MySQL 实例到 GCP BigQuery 的数据迁移。我不想迁移每个 MySQL 数据库,因为最后我想使用 BigQuery 创建一个数据仓库。

将 AWS MySQL DB 以 csv/json/avro 格式导出到 S3 存储桶,然后转移到 GCP 存储桶是一个不错的选择吗?此数据管道的最佳做法是什么?

【问题讨论】:

    标签: mysql amazon-web-services google-cloud-platform google-bigquery aws-data-pipeline


    【解决方案1】:

    如果这是 MySQL 到 MySQL 的迁移;还有其他可能的选择。但在这种情况下,您提到的选项是完美的。另外,请记住,您的 MySQL 数据库会不断更新。因此,您的目标数据库可能会丢失一些记录。因为它不是实时数据库传输。

    【讨论】:

    • 嗨,Deepak,感谢您的回复,计划是在初始阶段迁移存档数据,到此迁移完成时,预计系统也将迁移到 GCP。即使在迁移到 GCP 之后,我也必须处理 MySQL 数据库,因此我会牢记您对实时数据传输的看法,再次感谢您..
    【解决方案2】:

    您的导出到 S3 文件的建议应该可以正常工作,并且要导出文件,您可以利用 AWS Database Migration Service

    使用该服务,您可以一次性导出到 S3,或使用变更数据捕获进行增量导出。不幸的是,由于 BigQuery 并不是真正为处理其表的更改而设计的,因此实施 CDC 可能有点麻烦(尽管完全可行)。您需要考虑跨提供商传输数据的成本。

    另一个对您来说更容易的选择是使用相同的 AWS 数据库迁移服务到 move data directly to Amazon Redshift

    在这种情况下,您将自动获取变更数据捕获,因此您无需担心任何事情。 RedShift 是构建数据仓库的绝佳工具。

    如果您出于任何原因不想使用 RedShift,并且更喜欢完全无服务器的解决方案,那么您可以轻松地从数据库中使用 AWS Glue Catalog to read 并导出到 AWS Athena。

    基于 AWS 的解决方案最酷的地方在于,一切都紧密集成,您可以使用相同的帐户/用户进行计费、IAM、监控......而且由于您在单个提供商内移动数据,因此无需额外费用用于网络,无延迟,并可能减少安全问题。

    【讨论】:

    • 您好 Javier,感谢您的评论,最终我需要将所有存档数据从 AWS 迁移到 GCP,但非常感谢您的反馈! :)
    • 只记得在迁移到 gcp 之前压缩您的导出,这样您就可以节省网络出口
    猜你喜欢
    • 2021-10-05
    • 1970-01-01
    • 2020-07-04
    • 2021-10-12
    • 2021-08-08
    • 2017-06-06
    • 1970-01-01
    • 2022-01-27
    • 1970-01-01
    相关资源
    最近更新 更多