【发布时间】:2021-06-25 19:48:50
【问题描述】:
我正在使用 pyspark shell 来分析 hdfs 中的数据。 hdfs 路径中有隐藏文件,我想通过 shell 读取它们。然而,点文件被火花忽略。我如何阅读它们?
# This is not loading hidden files into data-frame
dir="/abc/xyz"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/*"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/.*"
df=spark.read.text(dir)
任何建议将不胜感激。
【问题讨论】:
标签: apache-spark pyspark hdfs