【发布时间】:2017-04-09 18:07:34
【问题描述】:
如果在张量流代码中输入样本的数量为5000000。这是否意味着它训练了所有这些样本进行训练?我如何知道分别用于训练和测试目的的样本数量?
【问题讨论】:
-
你在哪里看到这个号码?你是提供训练和测试数据的人,所以你应该知道每个人有多少样本。
标签: tensorflow
如果在张量流代码中输入样本的数量为5000000。这是否意味着它训练了所有这些样本进行训练?我如何知道分别用于训练和测试目的的样本数量?
【问题讨论】:
标签: tensorflow
您必须选择用于训练和测试的样本数量。一般的方法是随机设置 70% 的样本进行训练,其余 30% 进行测试。这可以相当简单地完成:
假设您有一个包含 5000000 个样本的数据框,名为 df。 pandas 的 sample() 函数将允许您选择指定百分比的随机样本,这些样本可以留出用于训练。剩下的 30% 将被编入索引并用于测试。
import pandas as pd
train_set = df.sample(frac=0.7)
test_set = df.loc[~data_.index.isin(train_set.index)]
现在您有两个数据帧,一个用于训练(3500000 个样本),一个用于测试(1500000 个样本)
【讨论】: