如何将我自己的数据集转换为 x_train y _train ， x_test x_train答案

【问题标题】：How to convert my own dataset into x_train y _train , x_test x_train如何将我自己的数据集转换为 x_train y _train ， x_test x_train
【发布时间】：2019-06-05 16:01:51
【问题描述】：

我有单独的用于训练和验证的文件夹，每个文件夹包含三个子文件夹（正常、快乐、惊喜）。训练 6000 个样本，验证 2000 个样本。

从每个文件夹中读取所有数据并转换为 train_img_data 和 val_img_data 变量后，如何将它们转换为 x_train y_train 和 x_test 和 y_test 以适应网络？

有人可以帮我解决这个问题吗非常感谢您提前....

【问题讨论】：

"在读取每个文件夹中的所有数据并将它们转换为 train_img_data 和 val_img_data..." 那么，如果不是 x_train，那么您究竟将数据转换为什么？和y_train?或者换句话说：train_img_data 和val_img_data 的类型是什么？最好是显示创建它们的代码部分。

标签： keras

【解决方案1】：

使用可以使用来自sklearn 的train_test_split 函数。见here。

from sklearn.model_selection import train_test_split

data = []
labels = []
# suppose you've loaded your data and labels

# partition the data into training and testing splits using 80% of
# the data for training and the remaining 20% for testing
(trainX, testX, trainY, testY) = train_test_split(data, labels, test_size=0.2, random_state=42)

【讨论】：

【解决方案2】：

我不知道我是否理解正确，但如果你想使用 train_img_data 作为训练集，val_img_data 作为你想要的数据集计算性能指标（例如回归情况下的 MSE、准确度、分类情况下的 F1 分数）然后假设您想要获得名为 targetColumn 的列的预测，您可以这样做：

x_train = train_img_data.drop(columns=['targetColumn'])
y_train = train_img_data['targetColumn']
x_test = val_img_data.drop(columns=['targetColumn'])
y_test = val_img_data['targetColumn']

编辑：我没有在这个问题上发现 keras 标记 - 我在这里假设 train_img_data 和 val_img_data 是 Pandas DataFrames

【讨论】：