【发布时间】:2018-02-01 20:44:50
【问题描述】:
训练集头部是这样的
Session ID Timestamp Item ID Price Quantity
0 420374 2014-04-06T18:44:58.314Z 214537888 12462 1
1 420374 2014-04-06T18:44:58.325Z 214537850 10471 1
2 281626 2014-04-06T09:40:13.032Z 214535653 1883 1
3 420368 2014-04-04T06:13:28.848Z 214530572 6073 1
4 420368 2014-04-04T06:13:28.858Z 214835025 2617 1
所以我对数据进行预处理,将它们逐列归一化并适合 SGDClassifier。
from sklearn import linear_model
from sklearn import preprocessing as pp
scaler = pp.MinMaxScaler()
columns_list = list(train_data.columns)
del columns_list[-1]
train_data[columns_list] = scaler.fit_transform(train_data[columns_list])
clf = linear_model.SGDClassifier()
clf.fit(train_data.iloc[:, :-2],train_data.iloc[:,-1])
然后我想用模型进行预测,比如clf.predict(),但是原始测试集应该是以下格式。
Session ID Timestamp Item ID Price Quantity
0 420374 2014-04-06T18:44:58.314Z 214537888 12462 1
那我还需要用训练集让它们标准化吗?
模型期望什么测试数据?
测试数据需要什么预处理?
【问题讨论】:
标签: python scikit-learn dataset data-science