【发布时间】:2019-07-24 03:02:10
【问题描述】:
我对 scala 非常陌生,我有一个 csv 文件:
MSH ModZId ModProd Date
1140000 zzz abc 2/19/2018
1140000 zzz xyz 2/19/2018
651 zzz def 2/19/2018
651 zzz ghi 2/19/2018
1140000 zzz klm 2/19/2018
860000 zzz mno 2/26/2018
860000 zzz pqr 2/26/2018
122 zzz stu 2/26/2018
122 zzz wxy 2/26/2018
860000 zzz ijk 2/26/2018
我需要根据日期对 csv 文件进行分区,并将分区转换为 parquet,如下所示:
拼花输出 1:
MSH ModZId ModProd Date
1140000 zzz abc 2/19/2018
1140000 zzz xyz 2/19/2018
651 zzz def 2/19/2018
651 zzz ghi 2/19/2018
1140000 zzz klm 2/19/2018
拼花输出 2:
MSH ModZId ModProd Date
860000 zzz mno 2/26/2018
860000 zzz pqr 2/26/2018
122 zzz stu 2/26/2018
122 zzz wxy 2/26/2018
860000 zzz ijk 2/26/2018
谁能帮帮我。我很新,不知道如何根据日期在 scala 中对 csv 文件进行分区
【问题讨论】:
标签: scala apache-spark parquet