【发布时间】:2017-11-13 05:37:23
【问题描述】:
我知道这是一个非常经典的问题,在这个论坛上可能会被多次回答,但是我找不到任何明确的答案来从头开始清楚地解释这一点。
首先,假设我的名为 my_data 的数据集有 4 个变量,例如 my_data = variable1, variable2, variable3, target_variable
那么,让我们来解决我的问题。我将解释我的所有步骤,并就我遇到的问题寻求您的帮助:
# STEP1 : split my_data into [predictors] and [targets]
predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]
targets = my_data.target_variable
# STEP2 : import the required libraries
from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor
#STEP3 : define a simple Random Forest model attirbutes
model = RandomForestClassifier(n_estimators=100)
#STEP4 : Simple K-Fold cross validation. 3 folds.
cv = cross_validation.KFold(len(my_data), n_folds=3, random_state=30)
# STEP 5
在这一步,我想根据训练数据集拟合我的模型,然后 在测试数据集上使用该模型并预测测试目标。我还想计算所需的统计数据,例如 MSE、r2 等,以了解我的模型的性能。
如果有人帮助我了解 Step5 的一些基本代码行,我将不胜感激。
【问题讨论】:
标签: machine-learning scikit-learn regression random-forest cross-validation