【发布时间】:2018-12-12 05:37:13
【问题描述】:
我有一个带有 id - (Int) 和 tokens - (array<string>) 列的 Spark Dataframe (Scala):
id,tokens
0,["a","b","c"]
1,["a","b"]
...
假设我能够通过 SparkSession 检索数据并转换为案例类:
case class Token(id: Int, tokens: Array[String])
获得Dataset[Token] 对象后,如何将所有字符串标记数组连接成一个Array<String>,然后执行计数以查找出现次数最多的字符串?
输出:
a,2
b,2
c,1
...
【问题讨论】:
标签: scala apache-spark dataframe data-science