【发布时间】:2012-06-08 06:36:04
【问题描述】:
我正在尝试对搜索查询日志进行一些研究。我的首要兴趣是发现趋势。 例如:冬天人们经常患唇疱疹。所以我想在冬天我们可以看到这种类型查询的增长。
我想如何检测趋势:
- 使用先验算法或其他方法获取频繁项集。
- 在一个时间范围内(一小时、一天等)计算每个集合的数量
- 使用线性回归找到相对函数变化 如果这是回归 ax + b,那么我们只计算 (a*(first_date)+b)/(a*(second_date)+b)
所以我有一个问题: 很难在大量数据(我有数百万个查询)上找到频繁项集。我已经实现了 apriory 算法,但它的工作速度很慢,支持率很低(例如 200k 查询中的 2 次可能需要一天时间)
就我而言,什么是最好的算法?也许我可以用另一种方式解决我的任务?
【问题讨论】:
-
@Yavar 我只有一台(或两台)机器。所以这就是为什么我不能去分发。
标签: algorithm data-mining