如何将 databricks delta Lake 格式与 Kedro 一起使用？答案

【问题标题】：How would one use databricks delta lake format with Kedro?如何将 databricks delta Lake 格式与 Kedro 一起使用？
【发布时间】：2020-11-02 15:56:35
【问题描述】：

我们在项目中使用kedro。通常，可以这样定义数据集：

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

现在我们在数据块上运行，它们提供许多 optimisations，例如 autoOptimizeShuffle。我们正在考虑利用它来处理我们的 15TB+ 数据集。

但是，我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用

【问题讨论】：

标签： pyspark databricks kedro

【解决方案1】：

它对我们有用。

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite

【讨论】：