【发布时间】:2016-11-06 10:12:05
【问题描述】:
我正在使用多变量高斯分布来分析异常。 这就是训练集的样子
19-04-16 05:30:31 1 0 0 377816 305172 5567044 0 0 0 14 62 75 0 0 100 0 0
<Date> <time> <--------------------------- ------- Features --------------------------->
假设上述特征之一没有改变,它们保持为零。
计算平均值 = mu
mu = mean(X)'
计算 sigma2 为
sigma2 = ((1/m) * (sum((X - mu') .^ 2)))'
每个数据集中单个特征的概率是使用标准高斯公式计算的
对于特定特征,如果所有值都为零,则均值 (mu) 也为零。随后 sigma2 也将为零。 因此,当我通过高斯分布计算概率时,我会得到一个“零设备”问题。
但是,在测试集中,此特征值可能会波动,我想将其称为异常。这个,应该怎么处理?我不想忽略这样的功能。
【问题讨论】:
-
如果一个特征在所有实例中真正保持不变,那么它对分类毫无用处,可以删除
标签: machine-learning k-means data-analysis data-science unsupervised-learning