【发布时间】:2021-04-22 19:18:09
【问题描述】:
我正在尝试使用半监督机器学习来查找测试数据中的异常情况。假设我们有如下数据。此数据未标记,此数据是用于异常检测的训练数据。这里所有的值都是正常的。(不包含异常值)
column1 column2 column3 column4 column5 column6 column7 column8
10 15 35 20 41 78 32 45
74 41 45 41 42 32 31 41
15 10 12 11 12 13 14 12
和测试数据:
column1 column2 column3 column4 column5 column6 column7 column8
1800 15 35 20 41 78 32 45
74 41 45 41 42 32 31 41
15 10 12 11 12 13 14 12
模型可能会说第一行有异常。在多列数据集中考虑这一点。有什么办法可以得到如下的打印输出?
异常情况在第一行。并且它在名为column1的列的第一行中的值是异常情况的原因。
【问题讨论】:
-
如果你做一个单变量(按列)异常检测器,它会自然地出现。
标签: python pandas dataframe anomaly-detection