【发布时间】:2015-10-02 02:55:21
【问题描述】:
我正在尝试对数据集进行重复数据删除并将重复数据删除数据集转换为另一个数据框。然而,重复数据集的第一列是按变量分组
import pandas as pd
df = pd.DataFrame({ 'Cust':list('AAABBB'),'Dt':list('XXYYZZ'),'PA1':list('HHHMMH'),
'PA2': list('MLMMMM'),'PA3':[1,2,3,3,3,1] })
df2 = df.groupby('[Cust','Dt'], as_index=False).sum()
for col in ['PA1','PA2','PA3']:
df2[col] = df.groupby(['Cust','Dt'],as_index=False)[col].apply( lambda x:
'&'.join( x.astype(str).unique() ))
这给了我错误 raise TypeError('插入列的索引不兼容'
TypeError: 插入列的索引与框架索引不兼容
我希望将输出复制到另一个数据框 (df3) 以显示为 (保留原始日期的列顺序 - df) 原因是重复数据元素需要加载到数据库中,并且原始(和数据库模式)和重复数据集的布局(列顺序)应该相同。
Cust Dt PA1 PA2 PA3
A X 1&2&3 H M&L
B Y 3&1 M&H M
谢谢 PMV
【问题讨论】: