【发布时间】:2016-01-18 00:28:06
【问题描述】:
我正在使用 spark 的 textFile 从 hdfs 读取文件。
hdfs 中的目录如下所示:
/user/root/kjyw.txt
/user/root/vjwy.txt
/user/root/byeq.txt
/user/root/dira/xxx.txt
当我使用sc.textFile("/user/root/")时
作业将失败,因为目录包含子目录
如何让spark只读取目录中的文件?
请不要让我使用 sc.textFile("/user/root/*.txt"),因为文件名并非全部以 .txt 结尾
【问题讨论】:
标签: apache-spark