【发布时间】:2020-06-12 20:03:36
【问题描述】:
我有一个包含 3 列的 csv 文件。
Key,Branch,Account
a,213,234567
a,454,457900
a,562,340094
a,200,456704
b,400,850988
b,590,344433
c,565,678635
c,300,453432
c,555,563546
c,001,660905
我想遍历每一行并从 Key 列(a、b 和 c)中获取不同的行,并将它们拆分为 3 个不同的 pyspark 数据报。
a,213,234567
a,454,457900
a,562,340094
a,200,456704
b,400,850988
b,590,344433
c,565,678635
c,300,453432
c,555,563546
c,001,660905
【问题讨论】:
-
输出是否正确? a 有 4 行,但输出有 3 行。
-
如果您尝试将不同的数据帧保存为文件系统中的不同文件,请在此处查看我的答案,stackoverflow.com/questions/60048027/…。 python/pandas 解决方案不适用于大数据。
-
好的,有什么问题吗?你真的尝试过什么,做过什么研究吗?
标签: python csv dataframe pyspark