【发布时间】:2018-07-10 21:38:09
【问题描述】:
我有一个文件列表,我需要将这些文件分组为相同的文件组。
例如,我有如下文件
File1
File2
File3
File4
File5
File6
File7
File8
我使用filecmp.cmp() 和for 循环遍历文件列表并比较所有文件,并将结果转储到数据框中。然后我过滤了数据框以获取一个子集数据框,其中仅包含一对在 Col1 和 Col2 中相同的文件。例如,见下文。显示File1 == File2、File1 == File3等,
现在我想对相同的文件进行分组。我需要添加一个名为“组”的列,它显示相同文件的相同组号。第 0、1、2 和 3 行将是 Group1,因为 File1、File2、File3 和 File4 是相同的(File2 = File4 意味着 File1=File4=File3)。第 4 行和第 5 行将在 Group2 中。
可以在比较文件时或在创建结果数据框之后进行分组。
我正在使用 Pandas 和 Python。任何帮助将不胜感激。
谢谢
【问题讨论】: