【发布时间】:2021-10-18 12:23:09
【问题描述】:
我有一个数据框 DF1,它包含三列 city1、city2、distance。我想通过删除其中一个相同的行来从 DF1 创建一个新的数据帧 DF2
我正在尝试检查 btw 城市的距离。由于城市 (A 和 B) 或 (B 和 A) 将具有相同的 diatnce 。我需要删除其中一个
city1 city2 dist
A B 100
A C 200
B A 100
C B 200
所以在此,需要删除第一行或第三行中的任何一个,因为它们都被认为是相同的
预期输出
city1 city2 dist
A B 100
A C 200
C B 200
【问题讨论】:
标签: python dataframe apache-spark pyspark rdd