如何根据与另一个数据框列的相似性更新 Pyspark 数据框列？答案

【问题标题】：How can I update Pyspark dataframe's column according to similarities with another dataframe's column?如何根据与另一个数据框列的相似性更新 Pyspark 数据框列？
【发布时间】：2018-03-21 10:54:40
【问题描述】：

我正在使用 2 个数据帧，比如说“df1”和“df2”，它们是下一种：

df1:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'C'   |  3     |
+--------+--------+

df2:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+

我想要做的是更新 'df2' 的列 'Col2' 考虑到 'df1' 的值。我的意思是，我想根据 'Col1' 值的参考来设置 'df2' 'Col2' 的值和 'df1' Col2' 的值。

生成的数据框“df2”应该是：

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+

我如何使用 pyspark 数据帧来做到这一点？

【问题讨论】：

标签： python pandas dataframe pyspark similarity

【解决方案1】：

应该做一个简单的左连接，

df2.join(df1,df1.col1==df2.col1,'left')

【讨论】：