【发布时间】:2020-06-28 01:48:01
【问题描述】:
我有两个数据框如下:
df1(参考数据)
Tempe, AZ, USA
San Jose, CA, USA
Mountain View, CA, USA
New York, NY, USA
df2(用户输入的数据)
Tempe, AZ
Tempe, Arizona
San Jose, USA
San Jose, CA
Mountain View, CA
我想获得如下数据框 (df3):
-------------------------------------------
|Tempe, AZ, USA | Tempe, Arizona |
|Tempe, AZ, USA | Tempe, AZ |
|San Jose, CA, USA | San Jose, CA |
|San Jose, CA, USA | San Jose, USA |
|Mountain View, CA, USA| Mountain View, CA|
-------------------------------------------
我已经是用户定义函数了:
isSameAs(str1: String, str2:String): Boolean{
......
}
接受两个字符串(用户输入的数据和参考数据)并告诉我它们是否匹配。
我只需要找到在 Scala Spark SQL 中实现 map 的正确方法,以便获得像 df3 这样的数据框。
【问题讨论】:
-
你能分享两个数据框的架构吗?
-
两个数据框都只是单列。
标签: sql scala apache-spark apache-spark-sql