【发布时间】:2021-04-09 19:06:49
【问题描述】:
我正在处理一个 csv 文件,总共包含 2 列和 51 行。
data = pd.read_csv("data.csv", sep = ',')
data.columns=['x_column', 'y_column']
然后我进行线性回归
X = data.iloc[:, 0].values.reshape(-1, 1)
y = data.iloc[:, 1].values.reshape(-1, 1)
lr = LinearRegression()
接下来我需要执行的是 Tukey 方法。
X = data.iloc[[0], :].values
y = data.iloc[[1], :].values
然后我绘制了方框,发现我的范围在 -40 到 10 之间。
data.boxplot(return_type='dict')
plt.plot()
我需要将我的异常值分配给一个值,以便在再次训练我的数据集之前将其删除。这就是我有问题的地方。
y_column = X[:, 1]
data_outliers = (y_column > 0.0)
data[data_outliers]
当我运行最后一部分时,我得到 Item wrong length 1 而不是 50. 错误,我不知道如何解决。任何帮助表示赞赏。
【问题讨论】:
标签: pandas dataframe machine-learning data-mining tukey