项集的适当最小支持？答案

【问题标题】：appropriate minimum support for itemset?项集的适当最小支持？
【发布时间】：2011-10-07 10:50:49
【问题描述】：

请向我推荐任何有关项目集的适当最低支持和信心的材料！

::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。

【问题讨论】：

标签： data-mining apriori

【解决方案1】：

答案是适当的值取决于数据。

对于某些数据集，最佳值可能是 0.5。但对于其他一些数据集，它可能是 0.05。这取决于数据。

但是如果你设置 minsup =0 和 minconf = 0，一些算法会在终止前耗尽内存，或者你可能会因为模式太多而耗尽磁盘空间。

根据我的经验，选择 minsup 和 minconf 的最佳方法是从较高的值开始，然后逐渐降低它们，直到找到足够的模式。

或者，如果您不想设置 minsup，您可以使用 top-k 算法，而不是指定 minsup，您可以指定例如您想要 k 最频繁的规则。例如，k = 1000 条规则。

如果你对top-k关联规则挖掘感兴趣，可以查看我的Java代码：

http://www.philippe-fournier-viger.com/spmf/

该算法被称为 TopKRules，描述它的文章将在下个月发表。

除此之外，您还需要知道除了支持度和置信度之外，还有许多其他的兴趣度度量：lift、all-confidence、...关联规则”和“关联规则的兴趣度度量调查”基本上，所有度量在某些情况下都有一些问题……没有一个度量是完美的。

希望这会有所帮助！

【讨论】：

【解决方案2】：

在任何关联规则挖掘算法中，包括 Apriori，都由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和您的目标，您决定 minSup 和 minConf。显然，如果您将这些值设置得较低，那么您的算法将需要更长的时间来执行，并且您会得到很多结果。

【讨论】：

【解决方案3】：

最小支持度和最小置信度参数是用户偏好。 If you want a larger quantity of results (with lower statistical confidence), choose the parameters appropriately.理论上您可以将它们设置为 0。算法会运行，但需要很长时间，而且结果不会特别有用，因为它包含几乎任何东西。

所以选择它们，以便结果适合您的需求。从数学上讲，任何值都是“正确的”。

【讨论】：