【发布时间】:2019-12-26 12:59:38
【问题描述】:
我正在尝试在 Spark 数据帧中查找具有最大长度值的唯一行(基于 id)。每个 Column 都有一个字符串类型的值。
数据框是这样的:
+-----+---+----+---+---+
|id | A | B | C | D |
+-----+---+----+---+---+
|1 |toto|tata|titi| |
|1 |toto|tata|titi|tutu|
|2 |bla |blo | | |
|3 |b | c | | d |
|3 |b | c | a | d |
+-----+---+----+---+---+
期望是:
+-----+---+----+---+---+
|id | A | B | C | D |
+-----+---+----+---+---+
|1 |toto|tata|titi|tutu|
|2 |bla |blo | | |
|3 |b | c | a | d |
+-----+---+----+---+---+
我不知道如何使用 Spark 轻松做到这一点... 提前致谢
【问题讨论】:
标签: scala apache-spark apache-spark-sql