【发布时间】:2015-11-03 14:15:02
【问题描述】:
我有一个像这样的数据集:
+----+--------+---------+----------+--+ |编号 |时间 |活动 |时差 | | +----+--------+---------+----------+--+ | 1 | 15.00 |安装 | - | | | 1 | 15.30 |出售| 00.30 | | | 1 | 16.00 |出售| 00.30 | | | 2 | 15.00 |出售| - | | | 2 | 15.30 |出售| 0.30 | | | 3 | 16.00 |安装 | - | | | 4 | 15.00 |安装 | - | | | 5 | 13.00 |安装 | - | | | 5 | 14.00 |出售| 01.00 | | +----+--------+---------+----------+--+我想清理这个数据集: 我想排除第一个(和下一个 n..)事件是销售但不是安装的 id。 我想排除有安装但没有销售的 id(这些 id 确实是唯一的)
最终得到如下结果:
+----+--------+---------+----------+ |编号 |时间 |活动 |时差 | +----+--------+---------+----------+ | 1 | 15.00 |安装 | - | | 1 | 15.30 |出售| 0.30 | | 1 | 16.00 |出售| 0.30 | | 5 | 13.00 |安装 | - | | 5 | 14.00 |出售| 01.00 | +----+--------+---------+----------+如何在 R 中做到这一点?是否有任何特定的数据操作包,或者我可以使用 if 公式?我应该使用tapply吗?
【问题讨论】:
-
您已经尝试过什么了吗?为什么它不起作用?
-
将来尝试发布代码以重现您的数据,因为上述表格格式不能轻易转换为 R 对象。