商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

目录

Apriori算法：通过限制候选产生发现频繁项集
使用Apiori性质由L~2~产生C~3~
由频繁项集产生关联规则
提高Apriori算法的效率
提高基于Apriori挖掘效率的算法
挖掘频繁项集的模式增长方法

步骤

频繁模式增长的局限
频繁模式增长的优势

Apriori算法：通过限制候选产生发现频繁项集

Apriori算法是挖掘布尔关联规则频繁项集的算法
Apriori算法利用的是Apriori性质：频繁项集的所有非空子集也必须是频繁的。
A∪B模式不可能比A更频繁的出现
Apriori算法是反单调的，即一个集合如果不能通过测试，则该集合的所有超集也不能通过相同的测试
Apriori性质通过减少搜索空间，来提高频繁项集逐层产生的效率
Apriori算法利用频繁项集性质的先验知识（prior knowledge），通过逐层搜索的迭代方法，即将k 项集用于探察(k+1)项集，来穷尽数据集中的所有频繁项集。
先找到频繁1项集集合L₁,然后用L₁找到频繁2项集集合 L2，接着用L₂找L₃,直到找不到频繁k项集，找每个Lk需要一次数据库扫描商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

使用Apiori性质由L₂产生C₃

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

由频繁项集产生关联规则

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

提高Apriori算法的效率

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法

提高基于Apriori挖掘效率的算法

基于散列的技术
事物归约技术
划分技术
抽样技术
动态项集计数技术
频繁模式增长

挖掘频繁项集的模式增长方法

频繁增长模式适应了分治策略，如下所示： 将代表频繁项集的数据库压缩到一颗频繁模式树（FPtree），该树仍保留项集的关联信息。 把这种压缩后的数据库分解成一组条件数据库, 每个数据库关联一个频繁项或“模式段”并且分别挖掘每个条件数据库。

步骤

商务智能与数据挖掘 - Apriori和挖掘频繁项集的模式增长方法
第一步

规定最小支持度计数，例子中最小支持度计数是2.
数据库的第一次扫描和Apriori算法一样，它导出频繁项的集合并得到它们的支持度计数。
频繁项的集合按支持度计数的递减排序。结果集或表记为L。
第二步: 频繁模式树
第三步: 频繁模式树挖掘
由长度为1的频繁模式（初始后缀模式）开始，构造它的条件模式基。
构造它的（条件）FP树, 并递归地在该树上进行挖掘。
模式增长通过后缀模式与条件FP树产生的频繁模式连接实现

频繁模式增长的局限

频繁模式增长的局限

当数据库很大时, 构造基于主存的FP树有时是不现实的。
将数据库划分成投影数据库的集合，然后在每个投影数据库上构造FP树并在每个投影数据库中挖掘。

频繁模式增长的优势

频繁模式增长的优势 将发现的长频繁模式问题转换成较小的条件数据库中递归地搜索一些较短的模式，然后连接后缀。 对于挖掘长的频繁模式和短的频繁模式它都是有效的和可伸缩的，并且大约比Apriori算法快一个数量级

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode