【发布时间】:2018-05-17 21:34:32
【问题描述】:
下面是pyspark 中的一个数据框。我想根据tests 列中的值更新data frame 中的val 列。
df.show()
+---------+----+---+
| tests| val|asd|
+---------+----+---+
| test1| Y| 1|
| test2| N| 2|
| test2| Y| 1|
| test1| N| 2|
| test1| N| 3|
| test3| N| 4|
| test4| Y| 5|
+---------+----+---+
当任何给定的test 具有val Y 时,我想更新该值,那么所有特定测试的val's 都应更新为Y。如果不是,那么他们的价值观是什么。
基本上我希望data frame 如下所示。
result_df.show()
+---------+----+---+
| tests| val|asd|
+---------+----+---+
| test1| Y| 1|
| test2| Y| 2|
| test2| Y| 1|
| test1| Y| 2|
| test1| Y| 3|
| test3| N| 4|
| test4| Y| 5|
+---------+----+---+
我应该怎么做才能做到这一点。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql