【发布时间】:2021-05-10 17:25:27
【问题描述】:
我想在不使用 sklearn 库的情况下拆分我的数据集。以下是我使用过的方法。
我当前的代码:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)
我尝试了什么:
def non_shuffling_train_test_split(X, y, test_size=0.2):
i = int((1 - test_size) * X.shape[0]) + 1
X_train, X_test = np.split(X, [i])
y_train, y_test = np.split(y, [i])
return X_train, X_test, y_train, y_test
但是,上面的代码不是随机的。
【问题讨论】:
-
什么是 X 和 y?熊猫数据框? numpy 数组?
-
这是熊猫框架,然后这就是我所做的:data = df.to_numpy() X = data[:, :-1] y = data[:, -1] - 1跨度>
标签: python machine-learning scikit-learn