【发布时间】:2016-01-12 18:31:36
【问题描述】:
我正在通过以下链接处理数据仓库中的数据质量问题。
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
" 响应质量事件 我已经说过,每个质量屏幕都必须决定抛出错误时会发生什么。选择是:1) 停止进程,2) 将违规记录发送到暂挂文件以供以后处理,以及 3) 仅标记数据并将其传递到管道中的下一步。 第三个选择是迄今为止最佳的选择。 "
在某些维度提要(如客户列表)中,有时我们会两次获得同一个客户(两条记录在某些属性上存在差异)。在这种情况下,最好的解决方案是什么?
我不想拒绝这两条记录(因为这意味着不完整的客户数据)。
源系统修复问题的速度非常慢,所以我们每天都会遇到同样的问题。这意味着手动修复问题也很困难,因为它必须每天都进行(我们每天都会收到客户名单)。
无法选择单个记录,因为我们不知道正确的值是多少。
在我们的仓库中同时拥有这两个记录意味着我们的连接被中断。由于同一 ID 的两行,事实表行加倍(在连接中)。
有什么想法吗?
【问题讨论】:
-
将违规记录发送到挂起文件以供以后处理,并使用 GUI 修复违规记录似乎是您的最佳选择。
标签: etl data-warehouse dimensional-modeling data-quality