目录
Apriori算法:通过限制候选产生发现频繁项集
Apriori算法是挖掘布尔关联规则频繁项集的算法
Apriori算法利用的是Apriori性质:频繁项集的所有 非空子集也必须是频繁的。
A∪B模式不可能比A更频繁的出现
Apriori算法是反单调的,即一个集合如果不能通过测 试,则该集合的所有超集也不能通过相同的测试
Apriori性质通过减少搜索空间,来提高频繁项集逐层 产生的效率
Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k 项集用于探察(k+1)项集,来穷尽数据集中的所有 频繁项集。
先找到频繁1项集集合L1,然后用L1找到频繁2项集集合 L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk需 要一次数据库扫描
使用Apiori性质由L2产生C3
由频繁项集产生关联规则
提高Apriori算法的效率
提高基于Apriori挖掘效率的算法
基于散列的技术
事物归约技术
划分技术
抽样技术
动态项集计数技术
频繁模式增长
挖掘频繁项集的模式增长方法
频繁增长模式适应了分治策略,如下所示: 将代表频繁项集的数据库压缩到一颗频繁模式树(FPtree),该树仍保留项集的关联信息。 把这种压缩后的数据库分解成一组条件数据库, 每个数 据库关联一个频繁项或“模式段”并且分别挖掘每个条件 数据库。
步骤
第一步
-
规定最小支持度计数,例子中最小支持度计数是2.
-
数据库的第一次扫描和Apriori算法一样,它导出频繁项的集 合并得到它们的支持度计数。
-
频繁项的集合按支持度计数的递减排序。结果集或表记为L。
-
第二步: 频繁模式树
第三步: 频繁模式树挖掘 -
由长度为1的频繁模式(初始后缀模式)开始,构造它 的条件模式基。
-
构造它的(条件)FP树, 并递归地在该树上进行挖掘。
-
模式增长通过后缀模式与条件FP树产生的频繁模式连 接实现
频繁模式增长的局限
频繁模式增长的局限
- 当数据库很大时, 构造基于主存的FP树有时是不现实的。
- 将数据库划分成投影数据库的集合,然后在每个投影 数据库上构造FP树并在每个投影数据库中挖掘。
频繁模式增长的优势
- 频繁模式增长的优势 将发现的长频繁模式问题转换成较小的条件数据库中递 归地搜索一些较短的模式,然后连接后缀。 对于挖掘长的频繁模式和短的频繁模式它都是有效的和 可伸缩的,并且大约比Apriori算法快一个数量级