【发布时间】:2020-10-12 11:08:44
【问题描述】:
我有一个数据框,其中有一列(“combo”)以逗号分隔的值表示在同一时间段内同时发生的事件类型。我正在寻找一种方法来计算成对组合的频率(顺序无关紧要;即 AB 和 BA 是等价的)。
玩具数据框
+------------------------+
|combo startts endts|
| A,B 02:20 02:23 |
| A,B,D 02:23 02:25 |
| A,C 02:27 02:28 |
+------------------------+
理想输出:
+---------------------------+
|combo | count |
+---------------------------+
| AB | 2 |
| AC | 1 |
| AD | 1 |
| BC | 0 |
| BD | 1 |
| CD | 0 |
+-----------+---------------+
我正在考虑首先生成所有唯一的成对组合,将其放入列中,然后使用正则表达式模式匹配进行条件变异;但是,我不确定如何抽象地引用列名而不是特定的字符串模式(或者是否可能)。
感谢您的宝贵时间。
【问题讨论】:
标签: r count combinations frequency