【发布时间】:2014-07-30 15:09:08
【问题描述】:
我有一个数据集,其中记录了 63 年以来的 59k 个条目,我需要使用以下标准识别事件集群:
6 小时内发生 6 次或更多活动
每个事件都有一个唯一的 ID、时间 HH:MM:SS 和日期 DD:MM:YY,理想情况下,输出应该有一个集群 ID、每个集群内发生的事件以及开始和结束时间和日期。
考虑 R 中的问题,我们需要查看每个日期/时间并计算接下来 6 小时内的事件数,如果数字为 6 或更大,则保存事件 ID,如果不移动到下一个日期并执行相同的任务。我提取了一个仅包含 EventID、日期、时间和年份的数据。
https://dl.dropboxusercontent.com/u/16400709/StackOverflow/DataStack.csv
如果我在此期间想出什么,我会在下面发布。
更新:在休息一下思考这个问题后,我有了一个新的方法。
将每个事件的日期/时间加上 6 小时,然后计算在开始结束时间范围内的事件数,如果有 6 个或更多,则获取 eventID 并为其分配一个 clusterID。然后移动到下一个事件并循环重复 59k 次。
【问题讨论】:
-
同时看看this question(它不是 R 特定的,但可能仍然相关)
-
谢谢看看!
标签: r date time cluster-analysis