【问题标题】:Ignoring corrupted Orc files when reading via Spark通过 Spark 读取时忽略损坏的 Orc 文件
【发布时间】:2021-06-18 18:36:38
【问题描述】:

我在 HDFS 中有多个 Orc 文件,目录结构如下:

orc/
├─ data1/
│  ├─ 00.orc
│  ├─ 11.orc
├─ data2/
│  ├─ 22.orc
│  ├─ 33.orc

我正在使用 Spark 读取这些文件:

spark.sqlContext.read.format("orc").load("/orc/data*/")

问题是其中一个文件已损坏,因此我想跳过/忽略该文件。

我看到的唯一方法是获取所有 Orc 文件并在将其传递给 Spark 之前一一验证(通过读取它们)。但是这样我会两次读取相同的文件。

有什么办法可以避免两次读取文件吗? Spark 是否提供有关此方面的任何信息?

【问题讨论】:

    标签: scala apache-spark orc


    【解决方案1】:

    这将对您有所帮助:

    spark.sql("set spark.sql.files.ignoreCorruptFiles=true")
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-12-04
      • 2015-08-27
      • 1970-01-01
      • 2017-08-07
      • 2017-08-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多