【问题标题】:What is the usage of 'confidence' and 'lift' concepts of Apriori algorithmApriori算法的“信心”和“提升”概念的用法是什么
【发布时间】:2016-07-28 04:03:25
【问题描述】:
我将使用 Apriori 算法实现个人推荐系统。
我知道有“支持”、“信心”和“提升”三个有用的概念。我已经知道它们的含义了。我也知道如何使用支持概念找到频繁项集。但是我想知道如果我们可以使用支持规则找到频繁项集,为什么会有信心和提升概念?
您能否解释一下为什么在“支持”概念已经应用时存在“信心”和“提升”概念,如果我已经对数据使用了支持概念,我该如何继续使用“信心”和“提升”概念设置好了吗?
如果您能回答 SQL 查询,我将非常感激,因为我还是一名本科生。非常感谢
【问题讨论】:
标签:
sql-server
algorithm
data-mining
apriori
【解决方案1】:
单独支持会产生许多冗余规则。
例如
A -> B
A, C -> B
A, D -> B
A, E -> B
...
lift 和类似措施的目的是去除不比简单规则好多少的复杂规则。
在上述情况下,简单规则 A -> B 的置信度可能低于复杂规则,但支持更多。其他规则可能只是这种强模式的巧合,由于样本量较小,置信度略高。
同样,如果您有:
A -> B confidence: 90%
C -> D confidence: 90%
A, C -> B, D confidence: 80%
那么最后一条规则甚至糟糕,尽管有很高的信心!
前两个规则产生相同的结果,但具有更高的置信度。所以最后一条规则不应该是 80% 正确,但如果您假设前两条规则成立,则正确率为 -10%!
因此,支持和信心不够考虑。