【发布时间】:2020-11-17 08:46:50
【问题描述】:
我正在研究一个用例,我们要将数据从 SQL 数据库(600TB ~100 个表)移动到转换格式到 hadoop。我们没有在 SQL DB 中启用日志。我们决定将数据复制为数据集市视图并每周刷新此视图。复制的数据每周都会被擦除以重写。
此 SQL 数据库用于源自数据湖的报告目的。这个 OLTP 数据库是我们正在逐步替换的旧系统。被复制的数据集每周都会被删除并再次复制(刷新)。
- 80% 的数据副本是直接的,没有任何转换。
- 20% 已重新设计。
我们确定了 3 个选项:
- AirFlow + Beam 用于处理
- ETL (informatica) 被排除在外
- Kafka(连接、流式传输、沉入 hadoop)可选 CDC Debezium
您认为关于性能、总体交付时间、数据架构的最佳方法是什么?
【问题讨论】:
-
您真的打算每周删除并重新加载 600TB 的数据吗?从一周到另一周的数据集是否没有重叠?有多少数据转换 - 它基本上是源表的直接副本还是基本重新设计(OLTP 到 OLAP)?为什么要将数据从 SQL DB 移到 Hadoop?
-
感谢您的回答。此 SQL DB 用于从数据湖派生的报告目的。这个 OLTP 数据库是我们正在逐步替换的旧系统。复制的数据集每周都会被删除并再次复制(刷新)。 80% 的数据副本是直接的。 20% 已重新设计。
标签: hadoop apache-kafka architecture apache-beam debezium