【问题标题】:Python Pandas - how to remove duplicates depending on column valuesPython Pandas - 如何根据列值删除重复项
【发布时间】:2021-01-08 13:47:49
【问题描述】:

所以,我想将表格转换如下: Input data

进入表格,如下所示: Output data

目标是删除重复项,同时以 True、False 表示法从“Value_c”列中保存有关值的信息。

【问题讨论】:

标签: python pandas dataframe filter duplicates


【解决方案1】:

您可以在get_dummies 上使用groupby 来获得所需的输出。

>>> df = pd.DataFrame({"A":[1,1,1,2,2,2], "B":[1,1,1,2,2,2], "C":["Q","R","QR","R","QR","Q"], "D":[1,1,1,2,2,2], "E":["X","X","X","Y","Y","Y"]})
>>> df
   A  B   C  D  E
0  1  1   Q  1  X
1  1  1   R  1  X
2  1  1  QR  1  X
3  2  2   R  2  Y
4  2  2  QR  2  Y
5  2  2   Q  2  Y
>>> df = pd.get_dummies(df, columns=["C","E"])
>>> df.groupby(["A","B","D"]).agg(sum).reset_index()
   A  B  D  C_Q  C_QR  C_R  E_X  E_Y
0  1  1  1    1     1    1    3    0
1  2  2  2    1     1    1    0    3
>>> df.groupby(["A","B","D"]).agg(max).reset_index()
   A  B  D  C_Q  C_QR  C_R  E_X  E_Y
0  1  1  1    1     1    1    1    0
1  2  2  2    1     1    1    0    1
>>>

【讨论】:

    猜你喜欢
    • 2021-02-27
    • 1970-01-01
    • 1970-01-01
    • 2017-12-17
    • 2016-05-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多