【问题标题】:Pyspark Structured Streaming error with delta file verison增量文件版本的 Pyspark 结构化流错误
【发布时间】:2021-10-21 14:45:30
【问题描述】:

我的工作是将数据从带有镶木地板文件的增量表流式传输到 json 格式的输出表。两个表都位于 Azure Data Lake 容器中。

我收到以下错误,我无法理解:

java.lang.IllegalArgumentException:要求失败:没有获得第一个增量文件版本:921 来计算快照

这是什么意思?我不想删除我的检查点文件或事务日志等。

提前致谢

【问题讨论】:

    标签: pyspark databricks spark-structured-streaming azure-data-lake delta-lake


    【解决方案1】:

    注意:恢复 Azure Data Lake Storage Gen2 平面和分层 不支持命名空间。

    有关详细信息,请参阅 MSFT 文档“时间点恢复”。

    时间点还原允许您从仅影响块 blob 的操作中恢复数据。任何作用于容器的活动都将不可逆转地丢失。例如,如果您使用删除容器操作从存储帐户中删除容器,则无法使用时间点还原操作还原该容器。如果您希望稍后恢复单个 blob,请删除单个 blob 而不是整个容器。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-04-28
      • 1970-01-01
      • 2018-03-24
      • 2022-01-13
      • 2020-11-30
      • 1970-01-01
      • 2018-07-25
      相关资源
      最近更新 更多