您提供的关于 train_test_split 的代码行是对数据集不同部分进行训练和测试的第一步。之后,您将需要 fit 和 model 和 predict 一些给定的结果,因为 model。
但是,您似乎是机器学习和 scikit-learn 的新手,简单地回答您的问题并不能真正帮助您,相反,我建议您关注此tutorial,它非常简单而且清晰明了。
这将帮助您入门并让您更好地了解培训和测试的工作原理,并为您提供一些关于 cross_validation 的示例。
以防万一,这是另一个tutorial,您可以关注以更好地理解。这个有点复杂,所以排在第二位。
在这些之后,您将几乎可以使用 scikit-learn 官方文档找到自己的方式。
编辑:
如果您想处理完全不同的数据集,它与train_test_split 几乎相同,现在唯一的区别是您不会将数据拆分为训练和测试部分:
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.30, random_state=1)
相反,您只需获取您的第一个数据集(用于训练的数据集),然后将您的 X_train 和 y_train 从中取出:
X_train = data_train[feature_cols]
y_train = data_train['y_col']
对于您的测试集也是如此(前提是您有一个):
X_test = data_test[feature_cols] # make sure you're having the same features
y_test = data_test['y_col']
在那之后,什么都没有真正改变。
现在,如果您注意到的话,如果您将两个数据集组合在一起,使用 train_test_split 的情况完全相同(除了 train_test_split 随机划分数据)
我相信这就是你所要求的。
希望这对您有所帮助。