训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别？答案

【问题标题】：What is the difference between train, test, validation and ensembled data, blended data, and test data?训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别？
【发布时间】：2018-10-08 11:40:20
【问题描述】：

帮我理解这两个sn-ps的区别

set.seed(123)
ss <- sample(1:3,size=nrow(dataframe),replace=TRUE,prob=c(0.6,0.2,0.2))
train <- mtcars[ss==1,]
test <- mtcars[ss==2,]
cvr <- mtcars[ss==3,]

当我尝试集成方法时

# shuffle and split the data into three parts
set.seed(1234)
finaltrain <- finaltrain[sample(nrow(finaltrain)),]
split <- floor(nrow(finaltrain)/3)
ensembleData <- finaltrain[0:split,]
blenderData <- finaltrain[(split+1):(split*2),]
testingData <- finaltrain[(split*2+1):nrow(finaltrain),]

我的问题是，在集成时，我在做什么不同？我是初学者帮助我理解这一点。

【问题讨论】：

这两个sn-ps只是将数据随机分成3部分的不同方式。第一个 sn-p 的目标是 60-20-20 分割，第二个目标是大致相等的分区。
@astrofunkswag 所以没有区别，只是命名约定而已？
sn-ps 代码在几个方面有本质的不同。第二个 sn-p 保证对数据进行相等的 1/3 拆分，由于四舍五入，组之间的最大大小差异为 n = 1 第一个随机分组大小，因此不能保证 60-20-20 数据拆分

标签： r machine-learning ensemble-learning train-test-split

【解决方案1】：

训练数据集 曾经与模型相似，用于训练模型的数据集（在神经网络的情况下权重也有偏差）然后是这个数据的学习模型。

如果您使用的编程语言是 python，通常会以 .csv 或 .txt 格式插入训练数据集。数据集也可以使用表单矩阵，但编码的变化要一一改变。

验证数据集 用于在训练数据集上对合适模型进行无偏评估的样本数据。集合验证用于评估给定模型。

测试数据集 哪些测试集通常用于评估竞争模型。例如在Kaggle比赛中确定获胜者，验证集与训练集同时发布，而测试集实际上只有在比赛结束时才发布。这就是模型在测试集上决定获胜者的结果。 // 测试集通常包含精心收集的数据，涵盖模型将遇到的各种类。

【讨论】：