【发布时间】:2022-08-19 00:56:05
【问题描述】:
dataset_a =
zid code number
a1 abc 4.568
a2 adc 4.368
a3 asc 4.566
a4 bde 5.568
a5 ghi 7.969
a6 gji 7.475
dataset_b =
col code series
55 abc 1
22 adc 1
44 asc 2
11 asv 2
66 bde 3
77 trd 4
88 ghi 5
89 gji 5
90 gpi 5
我想看看每个系列的两个数据集中存在的所有代码.所以想要的输出是:
code series
abc 1
adc 1
bde 3
我做了一个左连接,代码asc 也被考虑在内,但由于2 系列的codes 并非都存在于df_1 中,我只想忽略它。系列5 的相同故事。
我可以groupBy 然后join 吗?
-
请提供足够的代码,以便其他人可以更好地理解或重现该问题。
标签: python dataframe join pyspark