【发布时间】:2018-06-21 15:35:58
【问题描述】:
我有两个数据框,如下所示。我试图根据两列中的任何一列找到两个数据框的交集,而不仅仅是它们。
所以在这种情况下,我想返回数据帧 C,它具有 df A 第 1 行(作为 A row1 col1= B 中的第 1 行 col1),df A 第 2 行(A 行 2 Col 2=B 中的第 1 行 Col2 ) 和 df A 第 4 行(作为 B 中的 Col1 第 2 行 = A 中的 Col 1 第 4 行)和 A 中的第 5 行。但是如果我对 A 和 B 进行交叉,它只会返回 A 中的第 5 行,因为那是两列的匹配。我该怎么做呢?非常感谢。如果我没有很好地解释这个问题,请告诉我。
答:
Col1 Col2
1 2
2 3
3 7
5 4
1 3
乙:
Col1 Col2
1 3
5 1
C:
1 2
2 3
5 4
1 3
【问题讨论】:
-
最好提供sn-p 代码来说明您的问题。它有助于让试图了解您的问题的人更快地获得上下文
-
dataframe
B实际上有多大?
标签: scala apache-spark dataframe dataset intersection