【发布时间】:2018-08-07 03:12:20
【问题描述】:
我在一个目录中有n 数量的文件,具有相同的.txt 扩展名,我想循环加载它们,然后为每个文件分别创建dataframes。
我已阅读this,但在我的情况下,我的所有文件都具有相同的扩展名,我想逐个迭代它们并为每个文件创建dataframe。
我首先使用以下代码行计算目录中的文件
sc.wholeTextFiles("/path/to/dir/*.txt").count()
但我不知道我应该如何进一步进行? 请指导我。
我正在使用Spark 2.3 和Scala。
谢谢。
【问题讨论】:
-
为什么要为每个文件创建一个数据框?在 Spark 中没有什么意义。如果您只有一个数据框,每行都跟踪它来自的文档,那不是更好吗?
标签: scala apache-spark apache-spark-sql