【发布时间】:2016-11-09 20:40:52
【问题描述】:
我正在跟进我的previous question。
已整理出一个循环来导入 CSV、连接数据和删除重复项。
files = glob.glob('./A08_csv/A08_B1_T*.csv')
dfs = [pd.read_csv(fp, index_col=[0], parse_dates=[0], dayfirst=True) for fp in files]
df = pd.concat(dfs)
df_purged = df.drop_duplicates(inplace=True)
print df_purged
但是 df.drop_duplicates(inplace=True) 不起作用(我肯定遗漏了一些东西)并且 print 返回一个 void。如何指定按索引检查重复项?添加列名似乎不起作用。
另外,如何将此循环转换为公式,以便我可以将此递归输入应用到具有不同文件名的 csv(即适用于 A08_B1_T*.csv(卧室)和 A08_KI_T*.csv(厨房)的东西)等等)?
【问题讨论】:
标签: loops csv pandas duplicates