【发布时间】:2017-01-20 23:55:17
【问题描述】:
我有多行的数据框,基于一列我想比较每一列的值并找到列名。
例如 DF - id,name,address,street,city,country,zipcode 根据ID,我想找出哪些字段有差异。
Seq(1,aaa,no55,melbourne,australia,00001)
Seq(1,aaa,no55,melbourne,australia,00002)
Seq(2,aaa,no55,melbourne,australia,00001)
Seq(2,aaa,no55,melbourne,australia,00001)
这里,邮政编码在 ID=1 中存在差异
如何以更有效的方式执行此操作,因为我想检查该数据框中的 50 列。感谢您的提前。
【问题讨论】:
-
是否有任何一组行可以与您的输入数据进行比较?如果是的话那么有可能
-
是 FaigB,即基于 ID 列。将比较多个相同的 ID 列。
标签: scala apache-spark spark-dataframe