【发布时间】:2018-10-10 18:49:33
【问题描述】:
假设我有这样的数据:
+-------+--------+--------------+--------+--------------+
| index | used_x | clicked_in_x | used_y | clicked_in_y |
+-------+--------+--------------+--------+--------------+
| 1 | True | False | True | True |
| 2 | False | False | True | False |
| 3 | True | True | False | False |
+-------+--------+--------------+--------+--------------+
我想使用 pandas 生成一个列联表,该表显示如下:
+--------+----------------+----------------+
| | clicked_from_x | clicked_from_y |
+--------+----------------+----------------+
| used_x | 40 | 3 |
| used_y | 2 | 10 |
+--------+----------------+----------------+
实现这一目标的最佳方法是什么?到目前为止,我已经使用crosstab 方法尝试了以下操作:
import numpy as np
import pandas as pd
size = 20
df = pd.DataFrame({
'used_x': np.random.choice(a=[False, True], size=size),
'clicked_from_x': np.random.choice(a=[False, True], size=size),
'used_y': np.random.choice(a=[False, True], size=size),
'clicked_from_y': np.random.choice(a=[False, True], size=size),
})
pd.crosstab([df['used_x'], df['used_y']], [df['clicked_from_x'], df['clicked_from_y']], margins=False)
产量:
但这很难理解,而不是我希望的表示。有谁知道如何获得我想要的结果,或者使用 pandas 的等效策略?
【问题讨论】:
标签: pandas crosstab contingency