【问题标题】:Are the rules generated by decision tree learner algorithm correlated?决策树学习算法生成的规则是否相关?
【发布时间】:2017-10-25 15:33:21
【问题描述】:
我一直在研究决策树学习算法来检测欺诈性银行交易。
到目前为止,我已经根据我的数据集为决策树生成了规则集。
我还为每个规则生成了显着性值:我的数据集中有多少交易满足特定规则,规则捕获的欺诈百分比等。
现在,根据规则的重要性,我需要选择前十个规则。
我的问题是当我选择前十个规则时,是否有可能某些规则是相关的?
例如:
我正在处理的数据集有 10000 个事务。
决策树算法给了我 20 条规则。
在 20 条规则中,我需要选择前 10 条规则。
现在,假设 rule1 标识了 50 个事务,而 rule2 标识了 60 个事务。 rule1 标识的某些规则也被 rule2 标识的可能性有多大?
注意:排名前十的交易是欺诈最多的交易。
【问题讨论】:
标签:
algorithm
machine-learning
decision-tree
【解决方案1】:
您无法通过这种方式得出概率。相关性是数据集的一个特征属性,是您针对每种情况计算的。 不是你可以从给定的信息中以代数方式推导出的东西。您的示例的答案可能在整个理论范围内有所不同:0 到 50。
在此应用程序中,您必须单独统计哪些交易满足哪些规则(10000 * 20 列表)并根据这些真实统计数据计算相关性。
确定交互和个人有效性的一个领域是“交叉验证”。例如,您将从集合中删除一条规则,在交易上重新运行模型,并查看您的验证指标(准确性、召回率等)发生了哪些变化。这通常是主成分分析的第一步。
我确实注意到您尚未定义“十大规则”。这十条规则单独来看是捕获最多交易的规则吗?那些个人缺席错过最多交易的人?也许您需要十个规则集,它们总体上具有最高的准确性?这是三个截然不同的问题,取决于您询问的相关性。