决策树学习算法生成的规则是否相关？答案

【问题标题】：Are the rules generated by decision tree learner algorithm correlated?决策树学习算法生成的规则是否相关？
【发布时间】：2017-10-25 15:33:21
【问题描述】：

我一直在研究决策树学习算法来检测欺诈性银行交易。到目前为止，我已经根据我的数据集为决策树生成了规则集。我还为每个规则生成了显着性值：我的数据集中有多少交易满足特定规则，规则捕获的欺诈百分比等。现在，根据规则的重要性，我需要选择前十个规则。

我的问题是当我选择前十个规则时，是否有可能某些规则是相关的？

例如：我正在处理的数据集有 10000 个事务。决策树算法给了我 20 条规则。在 20 条规则中，我需要选择前 10 条规则。现在，假设 rule1 标识了 50 个事务，而 rule2 标识了 60 个事务。 rule1 标识的某些规则也被 rule2 标识的可能性有多大？

注意：排名前十的交易是欺诈最多的交易。

【问题讨论】：

【解决方案1】：

您无法通过这种方式得出概率。相关性是数据集的一个特征属性，是您针对每种情况计算的。不是你可以从给定的信息中以代数方式推导出的东西。您的示例的答案可能在整个理论范围内有所不同：0 到 50。

在此应用程序中，您必须单独统计哪些交易满足哪些规则（10000 * 20 列表）并根据这些真实统计数据计算相关性。

确定交互和个人有效性的一个领域是“交叉验证”。例如，您将从集合中删除一条规则，在交易上重新运行模型，并查看您的验证指标（准确性、召回率等）发生了哪些变化。这通常是主成分分析的第一步。

我确实注意到您尚未定义“十大规则”。这十条规则单独来看是捕获最多交易的规则吗？那些个人缺席错过最多交易的人？也许您需要十个规则集，它们总体上具有最高的准确性？这是三个截然不同的问题，取决于您询问的相关性。

【讨论】：