【发布时间】:2021-05-15 08:18:55
【问题描述】:
/SRC1/trialbucket=1/1.parquet
/SRC1/trialbucket=2/2.parquet
/SRC2/trialbucket=1/3.parquet
/SRC2/trialbucket=2/4.parquet
文件夹中所有上述 parquet 文件具有相同的架构。
例如。 Col1,Col2,Col3
我必须将所有文件加载到具有以下架构的增量表中
Col1,Col2,Col3,Source
data1,data2,data3,SRC1
data11,data22,data33,SRC1
data1111,data222,data333,SRC1
data5,data6,data7,SRC2
data55,data66,data77,SRC2
data555,data666,data777,SRC2
我可以对每一个都执行此操作,并将文件夹名称添加为最后一列 (.withColumn),但我必须通过 10000 个此类文件夹来读取所有拼花文件并将它们加载到需要大量时间的表中!
有没有其他方法不用for循环来获取文件夹名称并将其添加到列中?
【问题讨论】:
-
input_file_name 可能会有帮助
-
输入文件名可以是任何东西。该列将是文件夹名称(SRC1 或 SRC2)
标签: python scala apache-spark apache-spark-sql databricks