【发布时间】:2021-08-09 16:48:33
【问题描述】:
我正在使用 python 抓取网页并将数据获取到看起来像这样的 .csv 文件。如果我附加到文件中,我可能会有一些重复/重复的数据。为了避免这种情况,我可以使用什么?我不确定熊猫 - 如果我应该在熊猫中打开文件然后删除重复项。我尝试了自己的其他方法,但无法提出解决方案。我正在考虑使用熊猫作为最后的选择
Date,Time,Status,School,GPA,GRE,GMAT,Round,Location,Post-MBA Career,via,on,Details,Note
2021-05-18,13:59:00,Accepted from Waitlist,Yale SOM,3.8,No data provided,740,Round 2 ,NYC,Non Profit / Social Impact,phone,2021-05-18,GPA: 3.8 GMAT: 740 Round: Round 2 | NYC,Interviewed and was waitlisted in R2. Just received the call this afternoon. Good luck everyone!
2021-05-18,13:51:00,Accepted from Waitlist,Yale SOM,3.8,323,No data provided,Round 2 ,Austin,Marketing,phone,2021-05-18,GPA: 3.8 GRE: 323 Round: Round 2 | Austin,Keep your head up! It all works out how it is supposed to.
【问题讨论】:
-
重复的行是否对应完全相同的行?这些重复项在文件中是否连续?
-
是的,不,他们分散了
-
如果您打算稍后在数据上使用 pandas,那么 pandas 和
drop_duplicates可能是您的最佳选择。如果你不这样做,并且如果文件可以放入内存,那么使用一组行应该可以完成这项工作。
标签: python pandas csv duplicates file-handling