如何去除异常值答案

【问题标题】：How to remove outlier如何去除异常值
【发布时间】：2019-07-06 21:08:45
【问题描述】：

我正在研究一个回归问题。我有 10 个自变量。我正在使用 SVR。尽管使用网格搜索进行了特征选择和调整 SVR 参数，但我得到了 15% 的巨大 MAPE。所以我试图删除异常值，但删除它们后我无法拆分数据。我的问题是异常值会影响回归的准确性吗？

from sklearn.metrics import mean_absolute_error 
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import Normalizer
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV


def mean_absolute_percentage_error(y_true, y_pred): 
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

import pandas as pd
from sklearn import preprocessing
features=pd.read_csv('selectedData.csv')
target = features['SYSLoad']
features= features.drop('SYSLoad', axis = 1)


from scipy import stats
import numpy as np
z = np.abs(stats.zscore(features))
print(z)
threshold = 3
print(np.where(z > 3))
features2 = features[(z < 3).all(axis=1)]


from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(features2, target, test_size = 0.25, random_state = 42)

执行以下代码时出现此错误。

"samples: %r" % [int(l) for l in lengths])

ValueError：发现输入变量的数量不一致样本：[33352, 35064]"

【问题讨论】：

异常值有时会影响您的模型，因为标准化后许多值可能会变得太小，我建议使用箱线图来识别上下四分位数，然后删除不属于该范围的剩余值，但仅当您有足够的数据时才执行此操作。如果您需要代码来执行此操作，请在下方评论，我会帮助您，但这需要一些时间。
@anand_v.singh 谢谢你，是的代码将不胜感激

标签： python scikit-learn outliers

【解决方案1】：

您收到错误是因为，虽然您的 target 变量与 features（大概是 35064）长度相等，但原因如下：

target = features['SYSLoad']

您的 features2 变量的长度较短（推测为 33352），即它是 features 的子集，原因如下：

features2 = features[(z < 3).all(axis=1)]

你的 train_test_split 有理由抱怨你的特征和标签的长度不相等。

因此，您还应该相应地对您的target 进行子集化，并在您的train_test_split 中使用此target2：

target2 = target[(z < 3).all(axis=1)]
train_input, test_input, train_target, test_target = train_test_split(features2, target2, test_size = 0.25, random_state = 42)

【讨论】：