【问题标题】:How can I add a column to a dataframe in Spark, whose values will depend on the contents of a 2nd dataframe?如何将列添加到 Spark 中的数据帧,其值将取决于第二个数据帧的内容?
【发布时间】:2019-03-30 01:18:00
【问题描述】:

假设我有一个数据框 df1,其中一列是“城市”。

我需要创建一个新列,它基本上会列出特定城市名称在第二个数据框 df2 中出现的次数。

谢谢!

【问题讨论】:

    标签: scala apache-spark dataframe


    【解决方案1】:
    var df3 =df2.groupBy("city").count
    
    df1.join(df3,Seq("city"), "left")
    

    这将为您提供答案。这里join用作查找技术

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-11-11
      • 2021-11-27
      • 1970-01-01
      • 1970-01-01
      • 2022-09-30
      相关资源
      最近更新 更多