【发布时间】:2019-06-09 08:28:19
【问题描述】:
我正在尝试删除我的数据框 (csv) 中的重复数据并获取一个单独的 csv 以显示每列的唯一答案。问题是我的代码已经运行了一天(确切地说是 22 小时)我愿意接受其他一些建议。
我的数据大约有 20,000 行带有标题。我之前曾尝试像 df[col].unique() 一样逐一检查唯一列表,并且不需要那么长时间。
>df = pd.read_csv('Surveydata.csv')
>
>df_uni=df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
>
>df_uni.to_csv('Surveydata_unique.csv',index=False)
我期望的是具有相同列集但在每个字段中没有任何重复的数据框。前任。如果 df['Rmoisture'] 有 Yes,No,Nan 的组合,它应该只有这 3 个包含在另一个数据帧 df_uni 的同一列中。
【问题讨论】:
-
我现在正在删除这个答案,我建议您添加一个示例数据框和一个预期的数据框示例。这将有助于观众想出一个可能的解决方案。
-
@anky_91 知道了,我只是做了例子。
-
@AOJkeygen - 值的顺序重要吗?
-
稍微相关的问题,重构此解决方案以模拟调用 df.drop_duplicates() 的最佳方法是什么。我正在尝试优化包含大量 drop_duplicates() 调用的脚本。
标签: python-3.x pandas jupyter-notebook drop-duplicates