【发布时间】:2019-12-12 09:31:24
【问题描述】:
我有一个包含 2 列 Array[String] 的数据框,如下所示:
+-------------------+--------------------+--------------------+
| HEURE_USAGE| LISTE_CODE_1| LISTE_CODE_2|
+-------------------+--------------------+--------------------+
|2019-09-06 11:34:57|[GBF401, GO0421, ...|[GB9P01, GO2621, ...|
|2019-09-02 13:27:49|[GO1180, BTMF01, ...|[GO3180, OLMP01, ...|
|2019-09-02 13:17:53|[GO1180, BTMF01, ...|[GO1180, BTMF01, ...|
|2019-09-06 11:27:05|[GBF401, GO0421, ...|[GBX401, GO0721, ...|
+-------------------+--------------------+--------------------+
我正在尝试创建一个列 'LISTE_CODE_3',它将是每一行的列 'LISTE_CODE_1' 和列 'LISTE_CODE_2' 的交集。
Spark 2.4 中有一个完美的功能可以做到这一点。
是intersect函数,返回没有重复的交集。 不幸的是,Spark 2.2 中不存在此功能。
我想也许我们应该比较集合。
你有什么想法吗?
【问题讨论】:
标签: arrays scala apache-spark intersect