基本概念

商务智能与数据挖掘 - 关联分析

规则度量:支持度和置信度

商务智能与数据挖掘 - 关联分析

频繁项集、闭项集基本概念

  • 项的集合称为项集
  • K项集:包含k个项的集合
  • {牛奶,面包,黄油}是个3项集 项集的出现频度是指包含项集的事务数
  • 如果项集的出现频度大于(最小支持度×D中的事务总 数),则称该项集为频繁项集
  • 项集X在数据集D中是闭的,即不存在真超项集Y使得Y 与X在D中具有相同的支持度计数,则项集X是数据集D 中的闭项集
  • 闭频繁项集
  • 极大频繁项集:该模式的任何真超模式都是非频繁的

由事务数据库挖掘单维布尔关联规则

商务智能与数据挖掘 - 关联分析

Apriori算法

原理

如果某个项集是频繁项集,那么它所有的子集也是频繁的。即如果 {0,1} 是频繁的,那么 {0}, {1} 也一定是频繁的

例子

商务智能与数据挖掘 - 关联分析

挖掘频繁项集的模式增长方法

  • 频繁增长模式适应了分治策略,如下所示:
  • 将代表频繁项集的数据库压缩到一颗频繁模式树(FPtree),该树仍保留项集的关联信息。
  • 把这种压缩后的数据库分解成一组条件数据库, 每个数 据库关联一个频繁项或“模式段”并且分别挖掘每个条件 数据库
    商务智能与数据挖掘 - 关联分析
    商务智能与数据挖掘 - 关联分析
    商务智能与数据挖掘 - 关联分析
    商务智能与数据挖掘 - 关联分析

商务智能与数据挖掘 - 关联分析

挖掘闭模式和极大模式

  • 挖掘方法:
  • 挖掘频繁项集的完全集,再删除具有相同支持度且是 某一集合子集的频繁集
  • 直接搜索闭频繁项集,但要求一旦识别闭项集就尽快 对搜索空间剪枝,剪枝策略如下:
    – 项合并
    – 子项集剪枝
    – 项跳过

相关文章:

  • 2022-01-23
  • 2021-06-22
  • 2022-01-05
  • 2021-11-13
  • 2021-12-02
猜你喜欢
  • 2022-12-23
  • 2021-11-21
  • 2021-10-22
  • 2021-12-04
  • 2021-07-15
  • 2021-09-28
  • 2021-12-20
相关资源
相似解决方案