【问题标题】:how to read a dir containing sub-dirs using spark's textFile()如何使用 spark 的 textFile() 读取包含子目录的目录
【发布时间】:2016-01-18 00:28:06
【问题描述】:

我正在使用 spark 的 textFile 从 hdfs 读取文件。

hdfs 中的目录如下所示:

/user/root/kjyw.txt
/user/root/vjwy.txt
/user/root/byeq.txt
/user/root/dira/xxx.txt

当我使用sc.textFile("/user/root/")

作业将失败,因为目录包含子目录

如何让spark只读取目录中的文件?

请不要让我使用 sc.textFile("/user/root/*.txt"),因为文件名并非全部以 .txt 结尾

【问题讨论】:

    标签: apache-spark


    【解决方案1】:
     val rdd = sc.wholeTextFiles("/user/root/*/*")
    

    放置 /* 尽可能多的目录级别。以上将适用于您显示的目录结构。

    它会给出 Pair RDD。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-08-17
      • 1970-01-01
      • 2012-11-25
      • 2012-05-09
      • 2016-02-11
      相关资源
      最近更新 更多