【发布时间】:2018-07-20 17:24:09
【问题描述】:
我想比较 Spark DataFrame 中的两列:如果在另一列 (attr_valuelist) 的值中找到列的值 (attr_value),我只想保留该值。否则,列值应为null。
例如,给定以下输入
id1 id2 attrname attr_value attr_valuelist
1 2 test Yes Yes, No
2 1 test1 No Yes, No
3 2 test2 value1 val1, Value1,value2
我希望得到以下输出
id1 id2 attrname attr_value attr_valuelist
1 2 test Yes Yes
2 1 test1 No No
3 2 test2 value1 Value1
【问题讨论】:
-
如果
attr_value的值不在attr_valuelist中,那行应该保持不变吗? -
Spark 自定义转换可能会有所帮助
-
请将第二列的值改为null,第一列的值不变。
标签: scala apache-spark apache-spark-sql