题目:《Online Anomaly Prediction for Robust Cluster System

时间:2009

会议:IEEE International Conference on Data Engineering

简介:

这是一篇发表在一个顶级会议上的会议论文。主要的工作是通过将stream-based的数据进行异常点的预测,文中也提到了这是首篇对stream-based data进行预测的paper。另外,当前对异常点研究的成果并不多,大多数也都是基于statistics的,而这篇则是用到了 Markov chain和navie Bayesian,毕竟是09年的paper,所以技术并不是很新,所以放在现在可以借鉴和改进的地方很有很多。

应用技术:

Markov chain和navie Bayesian classification

检测的是IBM的集群中的数据

模型框架:

Online Anomaly Prediction for Robust Cluster System

从图中可以很直观的看出整个模型的框架:

1、将当前的特征点(多维)映射到坐标中,通过Markov Chain可以得到这个样本点中每个特征的概率分布,从而得到一个分布的region。其中,由于每个样本点可能有多个特征,而每个特征的范围可能是连续的,而Markov的状态空间则是要求有限的状态空间,所以文中使用了一个equ-depth的方式来划分这个范围,从而将连续的数据转换为离散的。

2、通过Markov Chain得到每个样本点的特征的概率分布,通过下面的公式对特征的概率分布进行Bayesian计算。

Online Anomaly Prediction for Robust Cluster System

然后比较在anmoly和nomaly之间哪个confidence更高。

Online Anomaly Prediction for Robust Cluster System

算法的流程如下:

Online Anomaly Prediction for Robust Cluster System

首先是对bayesian模型的训练。

通过对labeled的数据进行navi bayesian的训练,可以计算得到每个特征点中的各个metric对分类结果(anomaly、normaly)的概率。

Online Anomaly Prediction for Robust Cluster System

后面的实验部分通过了三个指标进行了验证:

detection rate(检测率)

false alarm rate(错误警报率)

distance statistics(警报时隔)


下图就是对future data和current data的detection。

Online Anomaly Prediction for Robust Cluster System

Ntp是在指定的时间周期中出现正确的警报的数量。

Nfp是在指定的时间周期中出现错误的警报的数量。


time prediction diff的意思是异常出现和发出警报的时间差。


Online Anomaly Prediction for Robust Cluster System

Online Anomaly Prediction for Robust Cluster System

总结:

1、文中的一个创新之处是在通过Bayesian对future data分类的时候,没有是对data进行分类,而是对data中的特征分布进行分类的,这样更能发现一些潜在的特征。

2、由于发表的时间较早,所以放在现在来看的话,可以用一些更先进的方法例如DL和Mate Learning等技术来对内部进行一些改进。

相关文章:

  • 2021-11-06
  • 2022-01-28
  • 2021-12-17
  • 2022-01-10
  • 2022-01-11
  • 2021-09-12
  • 2021-04-28
  • 2021-11-20
猜你喜欢
  • 2021-11-09
  • 2022-12-23
  • 2021-06-07
  • 2022-01-18
  • 2021-07-26
  • 2021-12-22
  • 2021-10-24
相关资源
相似解决方案