【发布时间】:2013-02-10 16:59:33
【问题描述】:
我的项目在 2 个月前开始,我已经将运行的每个流程的 100 多个表传输到数据仓库。
我可能很快就会达到 200-300 张桌子,但我不相信我目前的开发方法会扩展。
我还有 3 周的版本(产品开发冲刺),并且表仍在改变它们的结构(数据类型、列名、新列等),这让我很头疼,所以我在最初的几周里忽略了它.
我怎么忽略了它?
- 在我将它们带到 ODS(操作数据存储)/MRR 层之前截断所有表
- 将所有数据从源系统完全带到 MRR 层
- 仅创建维度“增量”表(每周仍会随着新列和数据类型的变化而变化)
- 动态创建和填充临时表和仓库表。
现在我的模型已经开始形成,所以我必须处理增量负载
- 这似乎很容易,因为我对每条记录都有更新时间,但我的源系统中也有删除,我该如何处理?
- 我考虑过 CDC,但这会很费时间,因为我必须逐个表格地放置它
- 对于从 100-200 桌开始的人有什么解决方案吗?
【问题讨论】:
-
敏捷方法如何允许基本的设计更改?因为这就是您在这里所面临的——大量的后端开发对用户来说是不可见的。我从未在我见过的敏捷项目中看到过这个问题。
标签: ssis