LSCP: Locally Selective Combination in Parallel Outlier Ensembles

  1. LSCP框架:

        1.训练多个基础异常检测器(Base Detector Generation);

        2.生成伪标签用于评估(Pseudo Ground Truth);

        3.对于每个测试点生成局部空间,也就是近邻(Local Region Definition);

        4.模型选择与合并(Model Selection and Combination),即对所有的基模型在找到的局部空间上用生产的伪标签进行评估,和伪标签在局部空间上Pearson大的被选做最终输出模型。

 

  1. 异常检测(离群值检测)是一种重要的数据挖掘方法,可以找到与“主要数据分布”不同的异常值。
  2. 异常检测有三个特点:1无监督:一般没有标签可用;2极端的数据不平衡:异常点往往远少于正常点;3复杂的模式。
  3. 绝大部分的异常检测集成都是并行式的。
  4. LSCP(Locally Selective Combination in Parallel Outlier Ensembles)通过强调数据局部性来选择性地组合基本检测器。
  5. 结合/融合/整合 (integration/ combination/ fusion)多个机器学习模型往往可以提高整体的预测能力。
  6. 动态分类器选择(DCS)是一个用于分类任务的已建立组合框架。
  7. LSCP改进了局部区域定义过程,以实现更稳定的组合机制。
  8. LSCP从一组要组合的检测器开始。对于每个测试实例,LSCP首先定义其局部区域,然后选择功能最强的局部检测器。所选检测器用于生成测试实例的离群值。

  1. 基于论文中的可视化分析,可以假设,当离群对象和正常对象被很好地分离时,LSCP是有用的,但是当它们被交错,数据因为异常过于分散,没有形成局部特征时,LSCP的效果会降低。当假设有少量异常值时,较小的局部区域大小会更合适。
  1. 因为异常检测是无监督的,所以该算法使用所有基学习器的输出结果的{均值,最大值}作为伪标签。LSCP中的伪标签是利用训练数据生成的,仅用于检测器的选择。
  2. LOF(Identifying Density-Based LocalOutliers):确定基于密度的局部异常值。寻找局部离群值的方法。
  3. 定义LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记的附近区域(邻居)时采用了一种随机K近邻的方法来提高稳定性,降低维数灾难的影响。
  4. LSCP通过Pearson Correlation来测量每个基本检测器的局部能力,伪标签在局部空间上Pearson大的被选做最终输出模型。
  5. LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记的最终结果时,选择多个表现优异的模型,进行二次合并而非依赖于单一的模型输出,提高表现。
  6. LSCP仍然是一种启发式框架,可能在病理数据集上产生无法预测的结果。
  7. 在论文实验中,LSCP_AOM是性能最好的方法。
  8. 由于LSCP显示了数据局部性的前景,未来的工作可以通过研究使用异构的基检测器和更可靠的伪标签生成方法来扩展这种探索。

PPT

新的集成异常检测框架,并行离群集成中的局部选择性组合

Dynamic Classifier Selection

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

动态分类器选择(DCS)是一个用于分类任务的已建立组合框架。它的根本思想就是,每当我们获得一个新的[公式]进行预测时,先评估一下哪些基学习器(base classifiers)在这个点附近的区域上表现良好(也就是在[公式]的邻近区域上),那我们就更可以相信它会在[公式]上表现良好。所以最简单的就是对于[公式],找到在它附近的训练数据上表现最好的模型 [公式] ,然后输出 [公式] 作为[公式]的结果即可。把DCS移植到异常检测的语境下。

LSCP算法设计

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

例如,一组具有独特MinPts [5]的LOF检测器。LOF:确定基于密度的局部异常值。(LOF: Identifying Density-Based LocalOutliers)首先在Xtrain上训练所有基本检测器,然后在同一数据集上进行推断。 将结果合并到一个异常得分矩阵O(Xtrain)中,在公式(1)中进行形式化,其中Cr(·)表示基于热检测器的得分向量。 每个检测器分数Cr(Xtrain)使用Z归一化进行归一化[2,32]。

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

因为异常检测是无监督的,所以该算法使用所有基学习器的输出结果的{均值,最大值}作为伪标签。LSCP中的伪标签是利用训练数据生成的,仅用于检测器的选择。

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

对所有的基模型在我们找到的局部空间上用生产的伪标签进行评估。对于每个测试实例,可以通过从目标中检索与局部区域ψj相关的值来获得局部伪地面真值目标ψj。LSCP通过Pearson Correlation来测量每个基本检测器的局部能力,伪标签在局部空间上Pearson大的被选做最终输出模型。

但是仅选择一个检测器,即使它与伪标签最相似,也可能在无监督学习中有风险。 可以通过再加第二阶段组合选择一组检测器来减轻这种风险。(可以选择最终是依赖于单个最优模型,还是二次合并选择s 个模型再合并一次。)

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

这是LSCP算法的工作流程,黄色部分表示需要重新计算的步骤; 灰色部分为缓存的步骤。LSCP专注于通过局部能力选择检测器,这有助于识别条件下模型偏差较低的基础检测器。但是,LSCP仍然是一种启发式框架,可能在病理数据集上产生无法预测的结果。

实验结果与分析

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

表1总结了本研究中使用的来自ODDS1和DAMI2的20个公共异常值检测基准数据集。采用受试者操作特性(ROC-AUC)和平均精密度(mAP)下的30个独立试验的平均得分来评估性能。我们使用非参数Friedman检验和事后Nemenyi检验。

所有模型都使用50个LOF基探测器池,确保性能评估期间的一致性。

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

实验表明,LSCP算法显示出巨大的潜力:它们在15个数据集上获得了最高的ROC-AUC分数,在18个数据集上获得了最高的mAP分数。其中,LSCP AOM是性能最好的方法,在ROC-AUC方面的13个数据集和mAP方面的14个数据集中排名最高。

LSCP: Locally Selective Combination in Parallel Outlier Ensembles-学习笔记

将真实数据用t-SNE(t-分布随机邻居嵌入)降维直观地比较了在心脏、甲状腺和信件方面表现最好的GG和LSCP方法的性能。基于这些可视化分析,可以假设,当离群对象和正常对象被很好地分离时,LSCP是有用的,但是当它们被交错,数据因为异常过于分散,没有形成局部特征,LSCP的效果会降低。这表明LSCP局部区域的大小应该由数据集中异常值的估计比例来决定。当假设有少量异常值时,较小的局部区域大小会更合适。

由于LSCP显示了数据局部性的前景,未来的工作可以通过研究使用异构的基检测器和更可靠的伪标签生成方法来扩展这种探索。

相关文章:

  • 2021-09-27
  • 2021-04-30
  • 2021-12-04
  • 2021-09-05
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-05-01
  • 2021-05-29
  • 2021-07-04
  • 2021-10-01
  • 2021-05-31
  • 2022-12-23
  • 2021-09-17
相关资源
相似解决方案