【发布时间】:2017-04-12 23:25:10
【问题描述】:
我有一个包含 4 个子文件夹的文件夹,其中包含镶木地板文件 文件夹->A.parquet、B.parquet、C.parquet、D.parquet(子文件夹)。我的要求是我想根据我提供给该方法的文件名来合并数据框。 我正在用代码做
val df = listDirectoriesGetWantedFile(folderPath,sqlContext,A,B)
def listDirectoriesGetWantedFile(folderPath: String, sqlContext: SQLContext, str1: String, str2: String): DataFrame = {
var df: DataFrame = null
val sb = new StringBuilder
sb.setLength(0)
var done = false
val path = new Path(folderPath)
if (fileSystem.isDirectory(path)) {
var files = fileSystem.listStatus(path)
for (file <- files) {
if (file.getPath.getName.contains(str) && !done) {
sb.append(file.getPath.toString())
sb.append(",")
done = true
} else if (file.getPath.getName.contains(str2)) {
sb.append(file.getPath.toString())
}
}
}
但我需要拆分 sb 然后合并数据框。我无法找到解决方案。我该如何处理它并解决
【问题讨论】:
标签: scala apache-spark