【发布时间】:2011-10-07 10:50:49
【问题描述】:
请向我推荐任何有关项目集的适当最低支持和信心的材料!
::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。
【问题讨论】:
标签: data-mining apriori
请向我推荐任何有关项目集的适当最低支持和信心的材料!
::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。
【问题讨论】:
标签: data-mining apriori
答案是适当的值取决于数据。
对于某些数据集,最佳值可能是 0.5。但对于其他一些数据集,它可能是 0.05。这取决于数据。
但是如果你设置 minsup =0 和 minconf = 0,一些算法会在终止前耗尽内存,或者你可能会因为模式太多而耗尽磁盘空间。
根据我的经验,选择 minsup 和 minconf 的最佳方法是从较高的值开始,然后逐渐降低它们,直到找到足够的模式。
或者,如果您不想设置 minsup,您可以使用 top-k 算法,而不是指定 minsup,您可以指定例如您想要 k 最频繁的规则。例如,k = 1000 条规则。
如果你对top-k关联规则挖掘感兴趣,可以查看我的Java代码:
http://www.philippe-fournier-viger.com/spmf/
该算法被称为 TopKRules,描述它的文章将在下个月发表。
除此之外,您还需要知道除了支持度和置信度之外,还有许多其他的兴趣度度量:lift、all-confidence、...关联规则”和“关联规则的兴趣度度量调查”基本上,所有度量在某些情况下都有一些问题……没有一个度量是完美的。
希望这会有所帮助!
【讨论】:
在任何关联规则挖掘算法中,包括 Apriori,都由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和您的目标,您决定 minSup 和 minConf。 显然,如果您将这些值设置得较低,那么您的算法将需要更长的时间来执行,并且您会得到很多结果。
【讨论】:
最小支持度和最小置信度参数是用户偏好。 If you want a larger quantity of results (with lower statistical confidence), choose the parameters appropriately.理论上您可以将它们设置为 0。算法会运行,但需要很长时间,而且结果不会特别有用,因为它包含几乎任何东西。
所以选择它们,以便结果适合您的需求。从数学上讲,任何值都是“正确的”。
【讨论】: