【发布时间】:2017-11-02 08:49:39
【问题描述】:
我最近一直在试验association rule learning,从庞大的交易数据库生成规则。我想使用这些规则实时提出建议。
有很多关于如何生成规则的文献,但我似乎找不到任何关于人们如何以实时方式实际使用这些规则的信息,并且暴力破解非常痛苦慢。
所以问题是: 我有成千上万个集合 R(规则前件),我想获得所有集合(来自 R),它们是某些提供的集合 X 的正确子集。我怎样才能最有效地做到这一点?
(只有查找要快,构建数据结构不需要)
附加信息:
- R 包含约 20000 套(目前,应该支持更多)。
- R 中的集合的基数通常小于 10。
- X 通常具有大约 30 的基数,但也可以大到 1000(很少见)。
- 讨论的所有集合都包含从 0 到大约 30000(目前)的整数(数据库 ID)。
【问题讨论】:
-
我有几个问题。你期望 X 有多大?另外,你知道可以输入的所有 X 的可能值吗?这个数字是基于 R 的大小吗?
-
好问题@JaysonBoubin,我会更新问题。
-
顺便说一句,X 的大小与 R 的大小无关。
-
您说 X 通常大小为 30,但也可以大到 1000。您知道 X 的所有可能值吗?如果有,有多大?
-
嗯,X 是用户购物车中的产品 ID 列表,查找用于查找用户可能想要购买的 其他 产品,基于关联规则。用户可以在他的购物车中拥有多少产品没有限制,但我的数据库中没有任何示例超过 1000。
标签: algorithm data-structures data-mining