【发布时间】:2019-10-09 13:27:11
【问题描述】:
我想直接从 spark worker 读取 Рadoop 的一些数据:
所以,在 spark 程序中,我有一个 hadoop 配置:
val configuration = session.sparkContext.hadoopConfiguration
但是我不能在worker上使用它,因为它不是Serializable:
spark.sparkContext.parallelize(paths).mapPartitions(paths => {
for (path <- paths) yield {
//for example, read the parquet footer
val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
footer.getFileMetaData.getSchema.getName
}
})
结果
object not serializable (class: org.apache.hadoop.conf.Configuration...
【问题讨论】:
标签: scala apache-spark hadoop