在 spark worker 中使用 hadoop 配置答案

【问题标题】：Using of hadoop configuration at spark worker在 spark worker 中使用 hadoop 配置
【发布时间】：2019-10-09 13:27:11
【问题描述】：

我想直接从 spark worker 读取 Рadoop 的一些数据：

所以，在 spark 程序中，我有一个 hadoop 配置： val configuration = session.sparkContext.hadoopConfiguration 但是我不能在worker上使用它，因为它不是Serializable：

spark.sparkContext.parallelize(paths).mapPartitions(paths => {
      for (path <- paths) yield {
        //for example, read the parquet footer
        val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
        footer.getFileMetaData.getSchema.getName
      }
    })

结果

object not serializable (class: org.apache.hadoop.conf.Configuration...

【问题讨论】：

标签： scala apache-spark hadoop

【解决方案1】：

我不知道将配置对象用于 mapPartition 的任何解决方案。参考this solution，你必须手动将你的conf重写到你的mapPartition中。

【讨论】：