SAS回归模型RMSE - 得分或不得分答案

【问题标题】：SAS Regression model RMSE - to score or not to scoreSAS回归模型RMSE - 得分或不得分
【发布时间】：2013-12-06 06:58:16
【问题描述】：

简介：从一个数据集中获取模型并应用于另一个数据集以找到 RMSE。

说，我有数据集“data100”

并运行以下选择操作以确定重要变量：

PROC REG DATA =data100;
model y= x0-x999 / selection=forward SLENTRY=.01;
run;quit;

它返回 x0 x10 x20 x30 x40 x50 x60 x70 x80 x90 在 <.0001>

为什么我不能直接使用：

PROC REG DATA =data1000;
model y= x0 x10 x20 x30 x40 x50 x60 x70 x80 x90;
run;quit;

要确定data1000集的RMSE？

出现这个问题的原因是一位导师告诉我使用：

proc reg=data100 outest=data100est;
model y= x0-x999;
run;quit;

proc score data=data1000 score=data100est out=data1000p residual type=parms;
var y x0-x999;
run;

proc univariate data=data1000P;
var model1;
output out=data1000stat uss=ss1;
run;

data data1000stat;
set data1000stat;
rmse=sqrt(ss1/1000);
run;

proc print data=data1000stat;
run;quit;

我对这一点感到非常困惑，如果有人能澄清 why 甚至 if proc 分数在这里是合适的，那就太好了。

【问题讨论】：

明确标记迁移到Cross Validated - 这是一个统计学家的问题，而不是程序员。

标签： statistics sas regression

【解决方案1】：

这可能在统计论坛上问得更好。但既然你问...

当您运行第二个 REG 语句时，您正在重新拟合模型。估计的 beta 将与您在第一个 REG 语句中获得的 beta 不同。您正在重新运行回归并根据定义获取这些数据的 MINIMUM RMSE。

第二种方法保留第一次回归的 beta 并将它们应用于第二次回归。您在此处计算的 RMSE 将显示您的 100 个数据对 1000 个数据的建模效果。

最后，两者都提供了丰富的信息。两个 RMSE 之间的差异显示了 100 预测 1000 的能力。

【讨论】：