【问题标题】:How to solve Error of offset mismatch in Azure Databricks Autoloader cloudfiles source?如何解决 Azure Databricks Autoloader cloudfiles 源中的偏移不匹配错误?
【发布时间】:2022-03-09 16:27:33
【问题描述】:

当从 Autoloader 流正在读取的数据源中删除某些文件时会发生这种情况。

try:
    raw_df = spark.readStream.format("cloudFiles") \
            .option("cloudFiles.format","csv") \
            .option("cloudFiles.includeExistingFiles", "true") \
            .option("cloudFiles.allowOverwrites", "true") \
            .option("cloudFiles.schemaLocation", 
                opPath.outputPath +"/checkpoints/" + storageAccountInfo.adlsContainerName) \
            .option("delimiter","\t")\
            .load(source)

  except Exception as f:
    print(f)

Error Image

【问题讨论】:

  • 请张贴展开的堆栈跟踪(点击+ 符号),尤其是Caused by:

标签: azure-databricks databricks-autoloader


【解决方案1】:

我意识到这是因为一些文件已从作为 cloudfiles 流源的 blob 存储中删除。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-21
    • 1970-01-01
    • 1970-01-01
    • 2021-10-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-05-06
    相关资源
    最近更新 更多