【发布时间】:2014-01-21 08:38:25
【问题描述】:
基于以下 Pandas DataFrame,我有两个问题。
(1.) 每个二进制值表示数据项 (p1,p2,p3,p4) 的出现或缺失。我想计算DataFrame中的二进制值(只有1s)。
df = pd.DataFrame([[1,1,1,0,1],[2,1,1,0,1],[3,1,1,1,1],[4,0,1,0,1]])
df.columns = ['session','p1','p2','p3','p4']
输出
session p1 p2 p3 p4
0 1 1 1 0 1
1 2 1 1 0 1
2 3 1 1 1 1
3 4 0 1 0 1
以下是我尝试过的。
print ([df[col].value_counts() for col in df.columns])
但我的预期输出如下。任何帮助解决这个问题。
count
0 3
1 3
2 4
3 2
(2.) 我想获得会话的交集。获取会话 1 和 2、1 和 3、1 和 4、2 和 3、2 和 4、3 和 4 之间的公共数据项(p1,p2,p3,p4)。 我不知道预期的输出,但我觉得应该如下所示。
1,2,3,4
1,3,3,3,2
2,3,3,3,2
3,3,3,4,2
4,2,2,2,2
【问题讨论】:
标签: python pandas intersection dataframe