【问题标题】:Using of hadoop configuration at spark worker在 spark worker 中使用 hadoop 配置
【发布时间】:2019-10-09 13:27:11
【问题描述】:

我想直接从 spark worker 读取 Рadoop 的一些数据:

所以,在 spark 程序中,我有一个 hadoop 配置: val configuration = session.sparkContext.hadoopConfiguration 但是我不能在worker上使用它,因为它不是Serializable

spark.sparkContext.parallelize(paths).mapPartitions(paths => {
      for (path <- paths) yield {
        //for example, read the parquet footer
        val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
        footer.getFileMetaData.getSchema.getName
      }
    })

结果

object not serializable (class: org.apache.hadoop.conf.Configuration...

【问题讨论】:

    标签: scala apache-spark hadoop


    【解决方案1】:

    我不知道将配置对象用于 mapPartition 的任何解决方案。参考this solution,你必须手动将你的conf重写到你的mapPartition中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-08-30
      • 2017-08-05
      • 1970-01-01
      • 2016-09-05
      • 1970-01-01
      • 2020-06-14
      • 1970-01-01
      • 2021-12-04
      相关资源
      最近更新 更多