【发布时间】:2019-06-27 06:13:45
【问题描述】:
谁能帮我推荐一种从数据集中检测规则破坏者的策略。
例如:
如果我有一个包含 4 列的数据集 - [CustomerName,CardType,BankName,Country]
因此数据集规则:每个客户只能在一个国家/地区拥有一张来自一家银行的卡。
理想 数据集:
**CustomerName - CardType - BankName - Country**
1) Tony - VISA - CITI - USA
如何检测规则破坏者?
**CustomerName - CardType - BankName - Country**
1) Tony - VISA - CITI - USA
2) Anthony - VISA - BOFA - USA
3) Anthony - MC - BOFA - USA
4) Anthony - VISA - CITI - USA
5) Anthony - MC - BOFA - USA
6) Jess - VISA - AMEX - USA
7) Jess - VISA - BOFA - USA
8) Jess - VISA - AMEX - USA
检测规则破坏者所需的输出,即一个客户拥有多个 CardType 或一个国家/地区的银行,考虑到 CustomerName 列作为主键和第一个记录的值(Cardtype、Bank、Country ) 的特定 CustomerName 为 True。
示例输出:
**CustomerName - CardType - BankName - Country**
3) Anthony - MC - BOFA - USA
4) Anthony - VISA - CITI - USA
5) Anthony - MC - BOFA - USA
7) Jess - VISA - BOFA - USA
提前致谢,
注意:我使用 pandas 进行了分析,方法是将主键与单个列分组,即将 CustomerName 和任何其他列分组以获得计数大于 1 的规则破坏者。 但是有什么方法可以检测这些规则破坏者而不是单独分析它们?
我有 18 个不同的列要检测,所以用模型/算法推荐/启发我真的很有帮助。
【问题讨论】:
标签: python pandas machine-learning data-science anomaly-detection