【发布时间】:2019-10-31 17:39:06
【问题描述】:
我在 scala 中有一个 spark 数据框,例如:
URL Browser
A Chrome
B Chrome
C Firefox
A Chrome
A Firefox
A Opera
A Chrome
B Chrome
B Firefox
C Tor
URL 列的数据范围很广,但 Browser 列的数据集有限。 我想在 URL 列上进行聚合,并按降序获取列表中每个浏览器的最高计数,例如:
URL FrequentlyUsedBrowser
A [(Chrome,3),(Firefox,1),(Opera,1)]
B [(Chrome,2),(Firefox,1)]
C [(Chrome,1),(Tor,1)]
我一直在为其编写 SQL 以使用窗口分区将计数作为每个浏览器的一个条目,但无法将其放入列表中。
这适用于运行 Spark 2.4 和 Scala 2.11 的 google 数据 proc 集群
【问题讨论】:
标签: scala apache-spark apache-spark-sql