【问题标题】:How would one use databricks delta lake format with Kedro?如何将 databricks delta Lake 格式与 Kedro 一起使用?
【发布时间】:2020-11-02 15:56:35
【问题描述】:

我们在项目中使用kedro。通常,可以这样定义数据集:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

现在我们在数据块上运行,它们提供许多 optimisations,例如 autoOptimizeShuffle。我们正在考虑利用它来处理我们的 15TB+ 数据集。

但是,我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用

【问题讨论】:

    标签: pyspark databricks kedro


    【解决方案1】:

    它对我们有用。

        client_table:
          type: kedro.contrib.io.pyspark.SparkDataSet
          filepath: ${base_path_spark}/${env}/client_table
          file_format: "delta"
          save_args:
            mode: overwrite
    

    【讨论】:

      猜你喜欢
      • 2020-04-18
      • 2020-12-23
      • 1970-01-01
      • 2021-12-22
      • 2022-12-18
      • 2021-10-20
      • 2021-02-20
      • 2021-03-03
      • 2020-11-18
      相关资源
      最近更新 更多