【发布时间】:2020-07-27 18:24:38
【问题描述】:
我有两个 Pandas 数据框,每个唯一的 member_id 可能有许多行,分别列出他们拥有的汽车和宠物。这两个 DF 各有数千行,它们的结构看起来像这样(这是一个超级抽象的例子,因为我不能随意分享我实际比较的分类变量。重点是有两个分类变量每个成员可以有多个,并且已知至少一些对汽车/宠物之间可能存在相关性):
我的目标是查看每对宠物和汽车之间的成对相关性。例如,从上面固定的图像中,在拥有猫的三个成员(2、3 和 4)中,其中一个拥有丰田。因此,Cat-Toyota 的成对频率将为 33%。使用一小组数据很容易做到这一点,但是我在弄清楚如何在数千行上自动执行此操作时遇到了很多麻烦。特别是,由于每个成员在两个数据框中都可以有很多行,所以我不知道如何按成员分组,然后迭代该成员的每个宠物车组合。
【问题讨论】:
-
请不要将图像升级为代码。粘贴为文本会增加您获得答案的机会。欢迎阅读how to ask
-
@Terry 如何将 DF 作为文本上传?我还没有弄清楚,那个链接似乎没有答案
-
您可以将
df.head()的结果复制为示例并粘贴为编辑菜单上的“代码示例”
标签: python pandas statistics categorical-data pairwise