【问题标题】:appropriate minimum support for itemset?项集的适当最小支持?
【发布时间】:2011-10-07 10:50:49
【问题描述】:

请向我推荐任何有关项目集的适当最低支持和信心的材料!

::我使用先验算法搜索频繁项集。我仍然不知道对 itemset 的适当支持和信心。我想知道决定支持有多大的考虑因素。

【问题讨论】:

    标签: data-mining apriori


    【解决方案1】:

    答案是适当的值取决于数据。

    对于某些数据集,最佳值可能是 0.5。但对于其他一些数据集,它可能是 0.05。这取决于数据。

    但是如果你设置 minsup =0 和 minconf = 0,一些算法会在终止前耗尽内存,或者你可能会因为模式太多而耗尽磁盘空间。

    根据我的经验,选择 minsup 和 minconf 的最佳方法是从较高的值开始,然后逐渐降低它们,直到找到足够的模式。

    或者,如果您不想设置 minsup,您可以使用 top-k 算法,而不是指定 minsup,您可以指定例如您想要 k 最频繁的规则。例如,k = 1000 条规则。

    如果你对top-k关联规则挖掘感兴趣,可以查看我的Java代码:

    http://www.philippe-fournier-viger.com/spmf/

    该算法被称为 TopKRules,描述它的文章将在下个月发表。

    除此之外,您还需要知道除了支持度和置信度之外,还有许多其他的兴趣度度量:lift、all-confidence、...关联规则”和“关联规则的兴趣度度量调查”基本上,所有度量在某些情况下都有一些问题……没有一个度量是完美的。

    希望这会有所帮助!

    【讨论】:

      【解决方案2】:

      在任何关联规则挖掘算法中,包括 Apriori,都由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和您的目标,您决定 minSup 和 minConf。 显然,如果您将这些值设置得较低,那么您的算法将需要更长的时间来执行,并且您会得到很多结果。

      【讨论】:

        【解决方案3】:

        最小支持度和最小置信度参数是用户偏好。 If you want a larger quantity of results (with lower statistical confidence), choose the parameters appropriately.理论上您可以将它们设置为 0。算法会运行,但需要很长时间,而且结果不会特别有用,因为它包含几乎任何东西。

        所以选择它们,以便结果适合您的需求。从数学上讲,任何值都是“正确的”。

        【讨论】:

          猜你喜欢
          • 2011-10-04
          • 2020-02-14
          • 2012-05-07
          • 1970-01-01
          • 1970-01-01
          • 2016-01-07
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多