【问题标题】:Pyspark Structured Streaming error with delta file verison增量文件版本的 Pyspark 结构化流错误
【发布时间】:2021-10-21 14:45:30
【问题描述】:
我的工作是将数据从带有镶木地板文件的增量表流式传输到 json 格式的输出表。两个表都位于 Azure Data Lake 容器中。
我收到以下错误,我无法理解:
java.lang.IllegalArgumentException:要求失败:没有获得第一个增量文件版本:921 来计算快照
这是什么意思?我不想删除我的检查点文件或事务日志等。
提前致谢
【问题讨论】:
标签:
pyspark
databricks
spark-structured-streaming
azure-data-lake
delta-lake
【解决方案1】:
注意:恢复 Azure Data Lake Storage Gen2 平面和分层
不支持命名空间。
有关详细信息,请参阅 MSFT 文档“时间点恢复”。
时间点还原允许您从仅影响块 blob 的操作中恢复数据。任何作用于容器的活动都将不可逆转地丢失。例如,如果您使用删除容器操作从存储帐户中删除容器,则无法使用时间点还原操作还原该容器。如果您希望稍后恢复单个 blob,请删除单个 blob 而不是整个容器。