【发布时间】:2017-07-10 10:23:55
【问题描述】:
我目前正在尝试使用 Python 的线性回归()模型来描述两个变量 X 和 Y 之间的关系。给定一个具有 8 列和 1000 行的数据集,我想使用 split_train_test 将此数据集拆分为训练集和测试集。
我的问题:我想知道 train_test_split(dataset, test_size, random_test = int) 与 train_test_split(dataset, test_size) 有什么区别。另外,第二个(没有设置 random_test=int ) 每次我重新运行我的程序时给我一个不同的测试集和训练集?另外,每次我重新运行我的程序时,第一个是否会给我相同的测试集和训练集?例如,设置 random_test=42 与 random_test=43 有什么区别?
【问题讨论】:
-
你用的python库是什么,是scikit-learn吗?
-
@Charles:是的!!我使用了 sklearn.model_selection。
标签: linear-regression training-data