【问题标题】:How to add Anomalies in dataset如何在数据集中添加异常
【发布时间】:2020-02-03 21:27:40
【问题描述】:

我想从连续数据集中检测异常。数据集由sklearn.datasets.samples_generator生成

这里是生成数据集的代码

from sklearn.datasets.samples_generator import make_blobs
(X,y) =  make_blobs(n_samples=100,n_features=5,centers=3,cluster_std=1.3,random_state=40)

现在,我想在该数据集中添加异常,然后检测这些异常。我可以检测到异常我有代码,但首先我需要该数据集中的异常。

【问题讨论】:

    标签: python python-3.x dataset anomaly-detection


    【解决方案1】:

    据我所知,sklearn api 中没有生成异常值的函数。

    make_blob 也以更详细的方式接受参数,您可以在其中指定每个集群的样本数、每个特征的“中心和标准差”。 (make_blob 使用高斯分布生成数据集。)

    解决方案是分两步生成数据,一次用于实际数据,一次用于使用不同中心和标准差的异常。

    X, y = make_blobs(n_samples=sample_list, centers=center_list, cluster_std=diviation_list,n_features=2,random_state=0)
    

    在上面的代码中,将sample_list 指定为形状数组(1,#NumberOfClusters),将center_list & diviation_list 指定为形状数组(#NumberofClusters,#NumberOfFeatures)。

    【讨论】:

      猜你喜欢
      • 2022-01-15
      • 1970-01-01
      • 2020-11-16
      • 2019-06-24
      • 1970-01-01
      • 2013-07-22
      • 1970-01-01
      • 1970-01-01
      • 2011-06-14
      相关资源
      最近更新 更多