【问题标题】:Delta lake transaction log - remove propertiesDelta Lake 事务日志 - 删除属性
【发布时间】:2020-08-19 09:28:34
【问题描述】:

我正在尝试将 csv 文件转换为 delta 格式。转换成功但我可以在第二个 json 事务文件中看到 remove 属性,其中 parquet 中第一个 csv 文件的详细信息如下:对于第一个 json 事务文件,没有删除属性。

{"remove":{"path":"part-00000-8780-121c6b34a252-c000.snappy.parquet","deletionTimestamp":1597827161514,"dataChange":true}}

我没有尝试删除任何文件或从增量表中删除。为什么我在尝试将新的 csv 转换为 delta 文件时看到此删除属性?请问有什么建议吗?

【问题讨论】:

  • 能看一下第二个json文件的header吗?它应该记录哪个操作生成了这个提交。

标签: json crc delta-lake


【解决方案1】:

尝试添加 .config("spark.databricks.delta.retentionDurationCheck.enabled", "false")

【讨论】:

    【解决方案2】:

    我明白,就像我使用 spark“覆盖”保存模式一样,它导致了删除。

    【讨论】:

      猜你喜欢
      • 2017-09-28
      • 2021-02-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-01-27
      • 2022-10-13
      • 2023-03-30
      相关资源
      最近更新 更多