【发布时间】:2018-03-21 10:54:40
【问题描述】:
我正在使用 2 个数据帧,比如说“df1”和“df2”,它们是下一种:
df1:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | 1 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
| 'C' | 3 |
+--------+--------+
df2:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | - |
+--------+--------+
| 'B' | - |
+--------+--------+
| 'B' | - |
+--------+--------+
我想要做的是更新 'df2' 的列 'Col2' 考虑到 'df1' 的值。我的意思是,我想根据 'Col1' 值的参考来设置 'df2' 'Col2' 的值和 'df1' Col2' 的值。
生成的数据框“df2”应该是:
+--------+--------+
| Col1 | Col2 |
+--------+--------+
| 'A' | 1 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
| 'B' | 2 |
+--------+--------+
我如何使用 pyspark 数据帧来做到这一点?
【问题讨论】:
标签: python pandas dataframe pyspark similarity