【发布时间】:2010-03-26 03:30:53
【问题描述】:
我正在使用 Talend 填充数据仓库。我的工作是将客户数据写入维度表,将交易数据写入事实表。事实表上的代理键 (p_key) 是自动递增的。当我插入一个新客户时,我需要我的事实表来反映相关客户的 ID。
正如我提到的,我的 p_key 是自动自动递增的,所以我不能只为 p_key 插入任意值。
有没有想过如何在我的维度表中插入一行并仍然检索主键以在我的事实记录中引用?
更多信息:
如果传入的数据没有标准化怎么办?例如,我有一个包含以下数据的 csv:
order # date total customer# first_name last_name
111 1/2/2010 500 101 John Smith
222 1/3/2010 600 101 John Smith
显然,我希望客户信息出现在维度表中,而交易数据出现在事实表中:
dimension
101 john smith
fact
111 1/3/2010
222 1/3/2010
正如您所提到的,维度表的键将自动递增。事实表需要引用这个键。您如何设计 etl 作业,以便在插入后返回代理键?
另外,如果对客户数据进行了重复数据删除(如上),您将如何处理密钥?
【问题讨论】:
-
您的仓库使用什么 RDBMS?
标签: etl data-warehouse talend