如何将列添加到 Spark 中的数据帧，其值将取决于第二个数据帧的内容？

【问题标题】：How can I add a column to a dataframe in Spark, whose values will depend on the contents of a 2nd dataframe?如何将列添加到 Spark 中的数据帧，其值将取决于第二个数据帧的内容？
【发布时间】：2019-03-30 01:18:00
【问题描述】：

假设我有一个数据框 df1，其中一列是“城市”。

我需要创建一个新列，它基本上会列出特定城市名称在第二个数据框 df2 中出现的次数。

谢谢！

【问题讨论】：

标签： scala apache-spark dataframe

【解决方案1】：

var df3 =df2.groupBy("city").count

df1.join(df3,Seq("city"), "left")

这将为您提供答案。这里join用作查找技术

【讨论】：