【发布时间】:2019-11-30 15:26:53
【问题描述】:
我有一个 spark 数据框,我希望检查特定列中的每个字符串是否存在于另一个数据框的预定义列中。 我在Spark (scala) dataframes - Check whether strings in column contain any items from a set 发现了同样的问题
但我想检查列中的字符串是否存在于另一个数据框的列中,而不是列表或集合遵循该问题。谁能帮我!我不知道将列转换为集合或列表,也不知道数据框中的“存在”方法。
我的数据与此类似
df1:
+---+-----------------+
| id| url |
+---+-----------------+
| 1|google.com |
| 2|facebook.com |
| 3|github.com |
| 4|stackoverflow.com|
+---+-----------------+
df2:
+-----+------------+
| id | urldetail |
+-----+------------+
| 11 |google.com |
| 12 |yahoo.com |
| 13 |facebook.com|
| 14 |twitter.com |
| 15 |youtube.com |
+-----+------------+
现在,我正在尝试使用比较结果创建第三列,以查看 $"urldetail" 列中的字符串是否存在于 $"url" 中
+---+------------+-------------+
| id| urldetail | check |
+---+------------+-------------+
| 11|google.com | 1 |
| 12|yahoo.com | 0 |
| 13|facebook.com| 1 |
| 14|twitter.com | 0 |
| 15|youtube.com | 0 |
+---+------------+-------------+
我想使用UDF,但我不知道如何检查字符串是否存在于数据框的列中!请帮我!
【问题讨论】:
-
欢迎来到 SO !我建议您阅读:stackoverflow.com/help/minimal-reproducible-example、stackoverflow.com/help/how-to-ask。我也建议你添加
inputs和outputs -
@Hiệp Bạch 如果您的数据看起来像这样,只需加入每个 DataFrame 的字符串列。如果df2的字符串列是一个包含多个单词的字符串,那就有点复杂了。
-
我仍然无法加入他们。能给我一些代码吗?
-
我必须做很多努力,因为你还没有把数据放在第一位下一篇请注意..
-
对不起,我是新用户,所以我的问题还不清楚。你的回答很有帮助,但我没有找到想要的结果:(
标签: scala dataframe apache-spark