Apriori算法:通过限制候选产生发现频繁项集

Apriori算法是挖掘布尔关联规则频繁项集的算法
Apriori算法利用的是Apriori性质:频繁项集的所有 非空子集也必须是频繁的。
A∪B模式不可能比A更频繁的出现
Apriori算法是反单调的,即一个集合如果不能通过测 试,则该集合的所有超集也不能通过相同的测试
Apriori性质通过减少搜索空间,来提高频繁项集逐层 产生的效率
Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k 项集用于探察(k+1)项集,来穷尽数据集中的所有 频繁项集。
先找到频繁1项集集合L1,然后用L1找到频繁2项集集合 L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk需 要一次数据库扫描商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

使用Apiori性质由L2产生C3

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

由频繁项集产生关联规则

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

提高Apriori算法的效率

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

提高基于Apriori挖掘效率的算法

基于散列的技术
事物归约技术
划分技术
抽样技术
动态项集计数技术
频繁模式增长

挖掘频繁项集的模式增长方法

频繁增长模式适应了分治策略,如下所示: 将代表频繁项集的数据库压缩到一颗频繁模式树(FPtree),该树仍保留项集的关联信息。 把这种压缩后的数据库分解成一组条件数据库, 每个数 据库关联一个频繁项或“模式段”并且分别挖掘每个条件 数据库。

步骤

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法
第一步

  • 规定最小支持度计数,例子中最小支持度计数是2.

  • 数据库的第一次扫描和Apriori算法一样,它导出频繁项的集 合并得到它们的支持度计数。

  • 频繁项的集合按支持度计数的递减排序。结果集或表记为L。

  • 商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法
    第二步: 频繁模式树
    第三步: 频繁模式树挖掘

  • 由长度为1的频繁模式(初始后缀模式)开始,构造它 的条件模式基。

  • 构造它的(条件)FP树, 并递归地在该树上进行挖掘。

  • 模式增长通过后缀模式与条件FP树产生的频繁模式连 接实现

频繁模式增长的局限

频繁模式增长的局限

  • 当数据库很大时, 构造基于主存的FP树有时是不现实的。
  • 将数据库划分成投影数据库的集合,然后在每个投影 数据库上构造FP树并在每个投影数据库中挖掘。

频繁模式增长的优势

  • 频繁模式增长的优势 将发现的长频繁模式问题转换成较小的条件数据库中递 归地搜索一些较短的模式,然后连接后缀。 对于挖掘长的频繁模式和短的频繁模式它都是有效的和 可伸缩的,并且大约比Apriori算法快一个数量级

相关文章: