【发布时间】:2019-08-20 03:33:44
【问题描述】:
我有一个熊猫数据框,它有两列。第一列代表项目的name,第二列代表它的一些被编码为整数的属性。一个项目可以有多个属性。这是一个示例
name ids
0 A 147 616 813
1 B 51 616 13 813
2 C 776
3 D 51 671 13 813 1092
4 E 13 404 492 903 1093
有 300 个这样的独特属性编码为整数,然后在 id 列中的字符串中表示。我想要达到的目标:
- 为每个 id 找到它出现的行。例如,为了检查
id13,我将获取行1, 3 and 4。 - 在我们的数据集中,与此 ID 相关的所有唯一 ID 是什么?例如,我会说对于 id
13: [51, 616, 813, 671, 1092, 404, 492, 903, 1093] - 一旦我们为每个 id 分组了行,我如何比较给定的 id 是否在该组中?例如,我想检查 id
52是否曾经与 id13发生过,如果是,在哪里以及出现了多少次?
我一直在考虑这个问题,但无法找到一种有效的方法来获得前两个和一个有效的方法以及 DS 为 3)。请帮忙!
【问题讨论】:
标签: python python-3.x pandas optimization data-analysis