【发布时间】:2021-10-13 20:03:48
【问题描述】:
我有一个包含 21 列的 pandas 数据框。我专注于具有完全相同列数据值的行子集,但每行唯一的 6 个除外。我不知道这 6 个值对应于哪个列标题是先验的。
我尝试将每一行转换为索引对象,并对两行进行了设置操作。例如。
row1 = pd.Index(sample_data[0])
row2 = pd.Index(sample_data[1])
row1 - row2
返回一个 Index 对象,其中包含 row1 独有的值。然后我可以手动推断哪些列具有唯一值。
如何以编程方式在初始数据框中获取这些值对应的列标题?或者,有没有办法比较两个或多个数据框行并提取每行的 6 个不同列值以及相应的标题?理想情况下,最好生成一个具有唯一列的新数据框。
具体来说,有没有办法使用集合操作来做到这一点?
谢谢。
【问题讨论】:
-
所以有一组行是 15-in-common,6-不同,还有其他行不遵循这种模式? [IOW,我们必须检测这个“行子集”还是已经完成了?]
-
你可以发布几个示例行吗?