《异常检测——从经典算法到深度学习》6 基于重构概率的 VAE 异常检测

6. 基于重构概率的 VAE 异常检测

论文名称：Variational Autoencoder based Anomaly Detection using Reconstruction Probability
发表时间：2015.12 立即下载

论文总体结构为：
Abstract: 我们提出了一种基于重构概率的异常检测方法
可变自动编码器。

Introduction
Backgroud
2.1 Anomaly detection：介绍异常检常用几个方法。
2.2 Autoencoder and anomaly detection: 介绍自编码器(autoencoder) 如何进行异常检测。
2.3 Variational Autoencoder：介绍 VAE 的核心内容、VAE 与 AE 的区别以及 VAE 训练算法。
Proposed method
3.1 Algorithm：总体介绍基于 VAE 模型的异常检测算法。
3.2 Reconstruction Probability：介绍上述算法中用的 reconstruction probability。
3.3 Difference from an autoencoder based anomaly detection：介绍两种算法的区别。
Experimental Results
实验部分用到了两个数据集 KDD cup 1999 与 MNIST，并与其他算法进行的比较。

接下来会对各部分进行介绍，请根据需要进行查看。（记得在下方点个赞，感谢）

1. Introduction

内容包括：

三两句介绍异常的定义、异常检测的意义。
从光谱异常检测技术中引出基于重构误差的检测方法，并指出基于 PCA 的方法属于这种方法。
从降维的角度引出自编码器(Autoencoder)，并说明这样的好处：更好提取特征、更高的隐藏层能够获取一些抽象特征。
提出基于 VAE 的异常检测算法，并说明其优点：与自动编码器和PCA相比，VAE的优势在于它提供了一个概率度量，而不是作为异常分数的重建误差，我们称之为重建概率。概率比重建误差更具原则性和客观性，不需要模型特定的阈值来判断异常。

可以用在自己论文中
Hawkins defined an anomaly as an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism[5].

2. Background

2.1 Anomaly detection

异常检测方法总的分类：

统计异常检测假设数据是从指定的概率分布建模的。参数模型（如高斯混合模型）或非参数模型（如核密度估计）可用于定义概率分布。如果从模型中生成数据点的概率低于某个阈值，则将其定义为异常。这种模型的优点是给出了概率作为判断异常的决策规则，具有客观和理论上的合理性。
基于邻近度的异常检测假设异常数据与大多数数据隔离。用这种方法对异常进行建模有三种方法，即基于聚类的、基于密度的和基于距离的。对于基于聚类的异常检测，将聚类算法应用于数据，以识别数据中存在的密集区域或簇。对每一个异常点的关系进行评估，形成每一个异常点的关系。这些标准包括到星团质心的距离和最近的星团的大小。如果到簇质心的距离高于阈值或最近的簇的大小低于阈值，则数据点被定义为异常。基于密度的异常检测将异常定义为位于数据稀疏区域的数据点。例如，如果数据点的局部区域内的数据点数量低于阈值，则将其定义为异常。基于距离的异常检测使用与给定数据点的相邻数据点相关的测量。K近邻距离可用于这样一种情况，即具有较大K近邻距离的数据点被定义为异常。
基于偏差的异常检测主要基于光谱异常检测，以重建误差作为异常分数。第一步是使用降维方法（如主成分分析或自动编码器）重建数据。利用k-最显著主成分对输入进行重构，并测量其原始数据点与重构数据点的差值，从而产生重构误差，作为异常评分。将重建误差较大的数据点定义为异常。

2.2 Autoencoder and anomaly detection

Autoencoder 是通过无监督训练得到的网络，包括编码 (encoder) 和解码(decoder) 两部分。encoder 过程对应公式 (1) ，decoder 过程对应公式 (2)，而公式 (3) 用于结算编码与解码过程对应原始数据造成的误差。称为重构误差(reconstruction error)，训练的目的就是最小化重构误差。
h = σ ( W x h x + b x h )            ( 1 ) h = \sigma(W_{xh}x+b_{xh}) \ \ \ \ \ \ \ \ \ \ (1) h=σ(Wxhx+bxh)          (1)

z = σ ( W h x h + b h x )            ( 2 ) z = \sigma(W_{hx}h+b_hx) \ \ \ \ \ \ \ \ \ \ (2) z=σ(Whxh+bhx)          (2)

∣ ∣ x − z ∣ ∣                                ( 3 ) ||x-z|| \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3) ∣∣x−z∣∣                              (3)
其中的 h h h 称为隐藏层，隐藏层的维度比输入层低，decoder 过程需要根据 h h h 重现输入数据 x x x 。这使得自动编码器对具有白噪声的数据具有鲁棒性，并且只捕获数据的有意义的模式。
自编码器的训练算法大致如下：
基于 AE 的异常检测是一种基于偏差的半监督学习算法，把重构误差 (reconstruction error) 作为异常值（anomaly score）。只把正常数据投入训练，完成训练后再对数据进行编码和解码操作，如果解码后数据与原始数据相近的数据是正常数据；当某数据的重构误差值高，我们认为是异常数据。
基于 AE 的异常检测算法如下：

可以用在自己论文中
Anomaly detection methods can be broadly categorized in to statistical, proximity based, and deviation based [1].

2.3 Variational Autoencoder

VAE 模型公式推导、更多介绍推荐参考 VAE 模型基本原理简单介绍

变分自动编码器（VAE）是一种有向概率图形模型（DPGM），其后验由神经网络逼近，结构类似于自动编码器。如图一所示：
编码与解码过程如图二所示：
编码与解码过程分别交给两个神经网络完成，VAE 的整体结构如图三所示：

关于 VAE 更详细的介绍推荐参考 VAE 模型基本原理简单介绍
VAE和自动编码器之间的主要区别是，VAE是一个随机生成模型，可以提供校准的概率，而自动编码器是一个确定性的判别模型，没有概率基础。这一点很明显，因为VAE对上述分布的参数进行了建模。
VAE 模型的训练算法如图所示

3. Proposed method

3.1 Algorithm

《异常检测——从经典算法到深度学习》6 基于重构概率的 VAE 异常检测

使用正常数据进行训练，训练过程中 decoder 和 encoder 共同确定隐变量的参数（即多个正态分布的 σ \sigma σ 和 μ \mu μ）。
从训练后的VAE的概率编码器中抽取大量样本进行测试，对于 decoder 的每个样本，概率解码器输出均值和方差参数。利用这些参数，计算由分布生成原始数据的概率。平均概率用作异常分数，称为重建概率。
这里计算的重构概率是对 E q φ ( z ∣ x ) [ l o g p θ ( x ∣ z ) ] E_{q_φ(z|x)}[log p_\theta(x|z)] Eqφ(z∣x)[logpθ(x∣z)] 的蒙特卡罗估计(Monte Carlo
estimate)，当数据的重构概率高绿很高时被归类为异常。

3.2 Reconstruction Probability

重构概率(reconstruction probability) 由随机隐变量计算，这些隐变量可以输出原始输入变量分布的参数，而不是输入数据本身。从本质上讲，这是从后验分布中提取的确定的隐变量生成数据的概率。由于从隐变量分布中提取了大量样本，这使得重构概率能够考虑隐变量空间的可变性，这是该方法与基于自动编码器的异常检测方法的主要区别之一。可以使用适合数据的输入变量空间的其他分布。
对于连续数据，正态分布可以用在算法4中。对于二进制数据，可以使用伯努利分布。在隐变量空间分布的情况下，一个简单的连续分布，如各向同性正态分布是首选。这可以通过谱异常检测的假设来证明，隐变量空间比输入变量空间简单得多。

3.3 Difference from an autoencoder based anomaly detection

VAE的重构概率与自动编码器的重构误差不同之处包括：

隐变量是随机变量。AE的隐变量由确定性映射定义，但 VAE 使用概率编码器来模拟隐变量的分布，而不是隐变量本身，因此可以从采样过程中考虑隐变量空间的可变性。VAE 相对 AE 而言扩展了表达能力，因为即使正常数据和异常数据可能共享相同的平均值，可变性也可能不同。据推测，异常数据的方差较大，重构概率较低。由于 AE 的确定性映射可以看作是到 δ \delta δ 分布平均值的映射，所以 AE 缺乏处理变化的能力。（通俗来说讲，AE 太实诚了，不懂得变通）
重构的是随机变量。重构概率不仅考虑了重构与原始输入的差异，而且考虑了分布函数的方差参数对重构结果的影响。这一特性使得对根据变量方差重构的选择性敏感。方差较大的变量可以容忍重构过程中与原始数据之间的较大差异，而方差较小的变量将显著降低重构概率。这也是 AE 由于其确定性映射关系缺少的特性。
重构是概率度量。基于 AE 的异常检测使用重构误差作为异常值，如果输入变量是异构的，则很难计算出异常值。为了总结异构数据的差异，需要加权求和。但没有一种通用的客观方法来确定合适的权重，因为权重会因数据而异。而且，即使在权值确定之后，确定重构误差的阈值也很麻烦。没有明确的客观门槛。相比之下，重构概率的计算不需要对异构数据的重建误差进行加权，因为每个变量的概率分布允许它们根据自身的可变性分别计算。对于任何数据，1% 的概率总是 1%。因此，与重构误差阈值的确定相比，重构误差阈值的确定更为客观、合理、易于理解。

4 Experimental Results

4.1 Datasets and setup

论文用到两个数据集，使用方法如下：

KDD cup 1999：将数据按 80% 与 20% 的比重分为正常数据与异常数据，训练时用到其中的正常数据。KDD 元数据包含五类数据，如下图 (Table 1) 所示。预处理时对于分类用到了 one-hot 方法，对于数值变量，采用0均值标准化和单位方差处理。
MNIST：把某个数字对应的数据作为异常，而其他9个数字作为正常数据。（比如说假设1为异常数据局而其他9个数字对应的数据都为正常数据）

可以用在自己论文中
Datasets used for anomaly detection are MNIST dataset [9] and KDD cup 1999 network intrusion dataset (KDD) [6].

4.2 Model setup

对于两个数据集，

VAE 模型的 Encoder 和 Decoder 分别对应一个隐藏层，并且维度为 400。中间的隐变量的维度为200。VAE 使用 reconstruction probability 作为异常值。
AE 使用两个隐藏层分别用于 Encoder 和 Decoder 维度分别为 400,200.
linear PCA 和 kernel PCA (kPCA) with a Gausssian kernel 。

4.3 Performance evaluation

性能评估方法：

AUC-ROC (Area under the curve of the receiver operating characteristic )
AUC-PRC (average precision
or Area under the curve of the precision recall curve)
f1-score

《异常检测——从经典算法到深度学习》6 基于重构概率的 VAE 异常检测

5. Conclusion

总结全文：提出了一种使用 VAE 进行异常检测的算法，这种算法是通过计算给定数据的重构概率来判断这个数据的异常成都。并且与AE、PCA、kPCA 算法进行的对比，结果显示 VAE 的优于其他三种算法。

6. 代码实现

结束了论文阅读后就到了编码实验部分了，这篇 2015 年的论文实验讲道理应该不难实现，推荐参考对应的实现（注：不是论文作者），地址如下：https://github.com/Michedev/VAE_anomaly_detection

主要问题包括

使用tensorflow 1.x 实现
没有关于 PCA、kPCA、AE 等的实现

如果有任何疑问请评论，讨论一下解决问题。

7. 总结

这篇论文介绍的是使用 reconstruction probability 作为异常值，基本思想就是在一个首先构建一个生产正常值的环境 (即由隐变量所确定的隐变量空间），在这个环境中不管如何 sample 拿到的可能与输入数据差别很大，但是这种差别依然是在正常数据的容忍范围内。但是如果不在这个环境中sample 而是投入另外一组异常特征，生成数据与正常数据差异就很大。也就是reconstruction probability 的值很大，我们觉得它与正常数据差别很大，它不属于这个优雅的环境，所以判定它为异常数据。

Smileyan
2020.10.24 15:36

目录

6. 基于重构概率的 VAE 异常检测

1. Introduction

2. Background

2.1 Anomaly detection

2.2 Autoencoder and anomaly detection

2.3 Variational Autoencoder

3. Proposed method

3.1 Algorithm

3.2 Reconstruction Probability

3.3 Difference from an autoencoder based anomaly detection

4 Experimental Results

4.1 Datasets and setup

4.2 Model setup

4.3 Performance evaluation

5. Conclusion

6. 代码实现

7. 总结