【发布时间】:2016-10-28 11:01:05
【问题描述】:
最近有人在这里发了一篇关于这篇论文的问题:https://static.googleusercontent.com/media/www.google.com/en//googleblogs/pdfs/google_predicting_the_present.pdf
论文的R代码可以在论文的最后找到。本质上,该论文通过搜索查询调查了提前一个月的销售预测。我想我理解了模型和方法,但是有一个细节让我感到困惑。这是部分:
1 ##### Divide data by two parts - model fitting & prediction
dat1 = mdat[1:(nrow(mdat)-1), ]
dat2 = mdat[nrow(mdat), ]
2 ##### Fit Model;
fit = lm(log(sales) ~ log(s1) + log(s12) + trends1, data=dat1);
summary(fit)
和:
3 #### Prediction for the next month;
predict.fit = predict(fit, newdata=dat2, se.fit=TRUE);
我明白,(1) 中的dat2 只是mdat 的最后一行。 (2) 表示回归模型适用于数据集中除最后一行以外的所有内容。
但是为什么在(3)的预测模型中使用newdata=dat2,它是什么意思?为什么只有最后一行?
【问题讨论】:
标签: r regression lm predict