【问题标题】:SAS Regression model RMSE - to score or not to scoreSAS回归模型RMSE - 得分或不得分
【发布时间】:2013-12-06 06:58:16
【问题描述】:

简介: 从一个数据集中获取模型并应用于另一个数据集以找到 RMSE。

说,我有数据集“data100”

并运行以下选择操作以确定重要变量:

PROC REG DATA =data100;
model y= x0-x999 / selection=forward SLENTRY=.01;
run;quit;

它返回 x0 x10 x20 x30 x40 x50 x60 x70 x80 x90 在 <.0001>

为什么我不能直接使用:

PROC REG DATA =data1000;
model y= x0 x10 x20 x30 x40 x50 x60 x70 x80 x90;
run;quit;

要确定data1000集的RMSE?


出现这个问题的原因是一位导师告诉我使用:

proc reg=data100 outest=data100est;
model y= x0-x999;
run;quit;

proc score data=data1000 score=data100est out=data1000p residual type=parms;
var y x0-x999;
run;

proc univariate data=data1000P;
var model1;
output out=data1000stat uss=ss1;
run;

data data1000stat;
set data1000stat;
rmse=sqrt(ss1/1000);
run;

proc print data=data1000stat;
run;quit;

我对这一点感到非常困惑,如果有人能澄清 why 甚至 if proc 分数在这里是合适的,那就太好了。

【问题讨论】:

  • 明确标记迁移到Cross Validated - 这是一个统计学家的问题,而不是程序员。

标签: statistics sas regression


【解决方案1】:

这可能在统计论坛上问得更好。但既然你问...

当您运行第二个 REG 语句时,您正在重新拟合模型。估计的 beta 将与您在第一个 REG 语句中获得的 beta 不同。您正在重新运行回归并根据定义获取这些数据的 MINIMUM RMSE。

第二种方法保留第一次回归的 beta 并将它们应用于第二次回归。您在此处计算的 RMSE 将显示您的 100 个数据对 1000 个数据的建模效果。

最后,两者都提供了丰富的信息。两个 RMSE 之间的差异显示了 100 预测 1000 的能力。

【讨论】:

    猜你喜欢
    • 2021-04-16
    • 2021-01-16
    • 1970-01-01
    • 2019-08-21
    • 1970-01-01
    • 2019-07-03
    • 2020-10-12
    • 2016-08-08
    • 2020-01-27
    相关资源
    最近更新 更多