【发布时间】:2022-12-01 08:15:38
【问题描述】:
我有一个带有子文件夹的父文件夹,每个子文件夹都包含一个镶木地板文件(代表一个表格),如下所示:
|Parent_input_folder:
|--- Children_folder1:
| |--- file1.parquet
|--- Children_folder2 :
|--- file2.parquet
目标是在使用 spark scala 转换后从这些文件夹中读取并写入输出文件夹:
|Parent_output_folder:
|--- Children_folder1:
| |--- file1.parquet
|--- Children_folder2 :
|--- file2.parquet
注意:每个文件都有不同的架构
你有什么想法在 spark scala 中做到这一点吗?
【问题讨论】:
-
您想应用哪些转换?如果您不知道模式,您如何应用转换?
标签: scala apache-spark