【问题标题】:How can I update Pyspark dataframe's column according to similarities with another dataframe's column?如何根据与另一个数据框列的相似性更新 Pyspark 数据框列?
【发布时间】:2018-03-21 10:54:40
【问题描述】:

我正在使用 2 个数据帧,比如说“df1”和“df2”,它们是下一种:

df1:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'C'   |  3     |
+--------+--------+

df2:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+
|  'B'   |  -     |
+--------+--------+

我想要做的是更新 'df2' 的列 'Col2' 考虑到 'df1' 的值。我的意思是,我想根据 'Col1' 值的参考来设置 'df2' 'Col2' 的值和 'df1' Col2' 的值。

生成的数据框“df2”应该是:

+--------+--------+
|  Col1  |  Col2  |
+--------+--------+
|  'A'   |  1     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+
|  'B'   |  2     |
+--------+--------+

我如何使用 pyspark 数据帧来做到这一点?

【问题讨论】:

    标签: python pandas dataframe pyspark similarity


    【解决方案1】:

    应该做一个简单的左连接,

    df2.join(df1,df1.col1==df2.col1,'left')
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-14
      • 2017-11-11
      • 1970-01-01
      • 2019-11-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多