【发布时间】:2020-11-06 00:42:20
【问题描述】:
我有一个如下的数据框
scala> df.show
+----+------+
|SLNO|Values|
+----+------+
| A| y|
| A| t|
| A| e|
| B| f|
| C| g|
| B| h|
| C| k|
| C| u|
| B| p|
+----+------+
预计会是:
SLNO Values
A y,t,e
B f,h,p
C g,k,u
如何通过 Spark Scala 的 DataFrame 和 DataSet 模型实现这一点?
我在数据集中尝试了类似下面的方法,但在此之后被击中
scala> ds.filter(line=> line.split("\t")(0).size <=1 ).map(line => Map(line.split("\t")(0) -> line.split("\t")(1)))
res86:org.apache.spark.sql.Dataset[scala.collection.immutable.Map[String,String]] = [value: map<string,string>]
// 不知道如何进一步分组
【问题讨论】:
标签: scala dataframe apache-spark dataset