【发布时间】:2018-03-28 04:54:53
【问题描述】:
我有 200 个csv 部分文件,它们按年份分隔,从 2012 年到 2018 年。我还想使用 pyspark 根据其中存在的日期列拆分 csv 文件。想知道一种有效的方法来做到这一点,因为csv 将包含数百万行。
我目前的方法是
- 将 2012 年的所有 csv 文件读入数据框
- 然后在所有 365 天里,我循环遍历上述数据框,然后按日期将内容写入 csv。
有没有其他有效的方法来实现这个pyspark。
我在下面放了示例数据:
> 1234|2012-01-01|abc|def|455
>
> 1278|2012-04-05|duuj|dea|457
>
> 9998|2012-05-09|dimd|ase|759
>
> 8892|2012-01-01|eedbnd|ss|378
>
> 178|2012-04-05|dswuj|ada|47
>
> 278|2012-04-05|d32j|d12a|421
我需要将此数据写入 3 个单独的 csv 文件,其中包含 2012-01-01、2012-04-05 和 2012-05-09 的数据
【问题讨论】: