【发布时间】:2017-05-30 19:51:49
【问题描述】:
我刚开始学习 scala 进行数据分析,当我尝试根据另一个数据框标记我的数据行时遇到了问题。
假设我有一个df1,其中列"date","id","value",和"label" 在开头设置为"F",用于df1 中的所有行。然后我有这个df2,这是一组较小的数据集,列"date","id","value"。然后我想将df1中的行标签从"F"更改为"T",如果该行出现在df2中,即某行df2 中的 ("date","id","value") 与 df1 中的那一行具有相同的组合。
我尝试使用df.filter 和df.join,但似乎两者都无法解决我的问题。
【问题讨论】:
-
你到目前为止做了什么可以分享一下吗?
-
您使用什么数据帧?火花?
-
是的,我正在使用 spark!感谢答案,两者都有帮助!
标签: scala apache-spark spark-dataframe