【发布时间】:2015-10-18 14:17:59
【问题描述】:
使用 Scala,我如何将 dataFrame 拆分为具有相同列值的多个 dataFrame(无论是数组还是集合)。 例如我想拆分以下DataFrame:
ID Rate State
1 24 AL
2 35 MN
3 46 FL
4 34 AL
5 78 MN
6 99 FL
到:
数据集 1
ID Rate State
1 24 AL
4 34 AL
数据集 2
ID Rate State
2 35 MN
5 78 MN
数据集 3
ID Rate State
3 46 FL
6 99 FL
【问题讨论】:
-
为什么需要将数据帧拆分为多个数据帧?可能你知道你可以过滤和转换你的数据帧到: [(AL,Seq(24 AL, 4 34 AL)), (MN, Seq(35 MN, 5 78 MN)), (FL, Seq(46 FL 6 99 FL))] 使用 groupBy。
-
groupBy 给出 GroupDate 类型,如何将其转换为 Array?
-
你能解释一下你想用那个数组做什么吗?
-
每次新数据框都不需要使用过滤器
标签: scala apache-spark dataframe apache-spark-sql