【问题标题】:Strategies to prevent duplicate data in Azure SQL Data Warehouse防止 Azure SQL 数据仓库中重复数据的策略
【发布时间】:2018-12-12 07:27:28
【问题描述】:

目前我正在设置 Azure SQL 数据仓库。我正在将 Databricks 用于带有来自 Azure Blob 存储的 JSON 文件的 ETL 过程。

确保不将重复维度或事实导入 Azure SQL 数据仓库的最佳做法是什么?

这可能发生在事实上,例如在加载过程中出现异常的情况。对于维度,如果我不检查哪些数据已经存在,这也可能发生。 我正在使用以下代码将数据导入数据仓库,我发现没有“模式”只会导入不存在的数据:

spark.conf.set(
   "spark.sql.parquet.writeLegacyFormat",
   "true")

 renamedColumnsDf.write
     .format("com.databricks.spark.sqldw")
     .option("url", sqlDwUrlSmall)
     .option("dbtable", "SampleTable")
     .option( "forward_spark_azure_storage_credentials","True")
     .option("tempdir", tempDir)
     .mode("overwrite")
     .save()

【问题讨论】:

    标签: azure duplicates etl business-intelligence sql-data-warehouse


    【解决方案1】:

    提取到临时表,然后将 CTAS 提取到事实表,并使用 NOT EXISTS 子句消除重复项。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-06-30
      • 1970-01-01
      • 1970-01-01
      • 2017-06-28
      • 2016-10-26
      • 2020-05-29
      • 2021-03-04
      • 1970-01-01
      相关资源
      最近更新 更多