【发布时间】:2018-10-08 11:40:20
【问题描述】:
帮我理解这两个sn-ps的区别
1)
set.seed(123)
ss <- sample(1:3,size=nrow(dataframe),replace=TRUE,prob=c(0.6,0.2,0.2))
train <- mtcars[ss==1,]
test <- mtcars[ss==2,]
cvr <- mtcars[ss==3,]
当我尝试集成方法时
2)
# shuffle and split the data into three parts
set.seed(1234)
finaltrain <- finaltrain[sample(nrow(finaltrain)),]
split <- floor(nrow(finaltrain)/3)
ensembleData <- finaltrain[0:split,]
blenderData <- finaltrain[(split+1):(split*2),]
testingData <- finaltrain[(split*2+1):nrow(finaltrain),]
我的问题是,在集成时,我在做什么不同?我是初学者帮助我理解这一点。
【问题讨论】:
-
这两个sn-ps只是将数据随机分成3部分的不同方式。第一个 sn-p 的目标是 60-20-20 分割,第二个目标是大致相等的分区。
-
@astrofunkswag 所以没有区别,只是命名约定而已?
-
sn-ps 代码在几个方面有本质的不同。第二个 sn-p 保证对数据进行相等的 1/3 拆分,由于四舍五入,组之间的最大大小差异为
n = 1第一个随机分组大小,因此不能保证 60-20-20 数据拆分
标签: r machine-learning ensemble-learning train-test-split