SVR 为所有特征预测相同的值答案

【问题标题】：SVR predicts same value for all featuresSVR 为所有特征预测相同的值
【发布时间】：2019-03-05 03:18:21
【问题描述】：

我正在创建一个基本应用程序来预测股票第 n+1 天的“收盘价”，使用 Python 和 Scikit-learn 给定股票 n 的特征

我的数据框中的示例行如下所示（2000 行）

       Open     Close    High     Low      Volume     
0      537.40   537.10   541.55   530.47   52877.98

类似于此视频https://www.youtube.com/watch?v=SSu00IRRraY，他使用“日期”和“开盘价”。在此示例中，日期是特征，开盘价是目标。

现在，在我的示例中，我的数据集中没有“日期”值，而是希望使用 Open、High、Low、Volume 数据作为特征，因为我认为这会使其更准确

我是这样定义我的功能和目标的

features = df.loc[:,df.columns != 'Closing']
targets = df.loc[:,df.columns  == 'Closing']

这将返回一个看起来像这样的 df 特点：

       Open      High      Low      Vol from  
29     670.02    685.11    661.09   92227.36

目标：

       Close
29     674.57

但是我意识到数据需要在一个 numpy 数组中，所以我现在得到这样的功能和目标

features = df.loc[:,df.columns != 'Closing'].values
targets = df.loc[:,df.columns  == 'Closing'].values

所以现在我的功能看起来像这样

[6.70020000e+02 6.85110000e+02 6.61090000e+02 9.22273600e+04
  6.23944806e+07]
 [7.78102000e+03 8.10087000e+03 7.67541000e+03 6.86188500e+04
  5.41391322e+08]

我的目标看起来像这样

[  674.57]
[ 8042.64]

然后我使用

拆分我的数据

X_training, X_testing, y_training, y_testing = train_test_split(features, targets, test_size=0.8)

我尝试遵循 Scikit-Learn 文档，结果如下

svr_rbf = svm.SVR(kernel='rbf', C=100.0, gamma=0.0004, epsilon= 0.01 )
svr_rbf.fit(X_training, y_training)
predictions = svr_rbf.predict(X_testing)
print(predictions)

我假设这将预测给定测试特征的 Y 值，然后我可以将其与实际 y_testing 值进行对比，以查看它们的相似程度。但是，预测会为每个 X_testing 特征打印出相同的值。

[3763.84681818 3763.84681818 3763.84681818 3763.84681818 3763.84681818

我尝试改变 epsilon、c 和 gamma 的值，但这似乎并没有改变预测总是给出相同值的事实

我知道预测股票价格可能不准确，但是在将模型应用于各种不同的测试数据时，我一定是做错了得到相同的值

【问题讨论】：

(1) 您可能希望尝试修改正则化参数C，看看这是否会导致输出与输入一起改变。 (2) 在 SVM 之前，您可能希望探索不同的预处理方案以应用于您的功能。

标签： python pandas numpy machine-learning scikit-learn

【解决方案1】：

在将 SVM 用于分类任务之前，您应该规范化您的特征。 SVM 通常对非归一化特征敏感。由于您的第 5 个功能比您的其他 4 个功能大 10,000 倍，因此它实际上支配了您的其他功能。

查看此链接，它非常清楚地解释了您的问题：https://stats.stackexchange.com/questions/57010/is-it-essential-to-do-normalization-for-svm-and-random-forest

【讨论】：