【问题标题】:What is the difference between train, test, validation and ensembled data, blended data, and test data?训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别?
【发布时间】:2018-10-08 11:40:20
【问题描述】:

帮我理解这两个sn-ps的区别

1)

set.seed(123)
ss <- sample(1:3,size=nrow(dataframe),replace=TRUE,prob=c(0.6,0.2,0.2))
train <- mtcars[ss==1,]
test <- mtcars[ss==2,]
cvr <- mtcars[ss==3,]

当我尝试集成方法时

2)

# shuffle and split the data into three parts
set.seed(1234)
finaltrain <- finaltrain[sample(nrow(finaltrain)),]
split <- floor(nrow(finaltrain)/3)
ensembleData <- finaltrain[0:split,]
blenderData <- finaltrain[(split+1):(split*2),]
testingData <- finaltrain[(split*2+1):nrow(finaltrain),]

我的问题是,在集成时,我在做什么不同?我是初学者帮助我理解这一点。

【问题讨论】:

  • 这两个sn-ps只是将数据随机分成3部分的不同方式。第一个 sn-p 的目标是 60-20-20 分割,第二个目标是大致相等的分区。
  • @astrofunkswag 所以没有区别,只是命名约定而已?
  • sn-ps 代码在几个方面有本质的不同。第二个 sn-p 保证对数据进行相等的 1/3 拆分,由于四舍五入,组之间的最大大小差异为 n = 1 第一个随机分组大小,因此不能保证 60-20-20 数据拆分

标签: r machine-learning ensemble-learning train-test-split


【解决方案1】:

训练数据集 曾经与模型相似,用于训练模型的数据集(在神经网络的情况下权重也有偏差) 然后是这个数据的学习模型。

如果您使用的编程语言是 python,通常会以 .csv 或 .txt 格式插入训练数据集。 数据集也可以使用表单矩阵,但编码的变化要一一改变。

验证数据集 用于在训练数据集上对合适模型进行无偏评估的样本数据。 集合验证用于评估给定模型。

测试数据集 哪些测试集通常用于评估竞争模型。 例如在Kaggle比赛中确定获胜者,验证集与训练集同时发布,而测试集实际上只有在比赛结束时才发布。 这就是模型在测试集上决定获胜者的结果。 // 测试集通常包含精心收集的数据,涵盖模型将遇到的各种类。

【讨论】:

    猜你喜欢
    • 2014-09-22
    • 2018-02-25
    • 2019-05-01
    • 2018-06-03
    • 1970-01-01
    • 2017-02-20
    • 2021-01-19
    • 2020-11-08
    • 2021-09-27
    相关资源
    最近更新 更多