【发布时间】:2022-11-07 18:16:40
【问题描述】:
我有一个非常大的数据集,由汽车保险投保人 (C) 和死于车祸的人 (D) 组成。数据集包括不同的费率类型(有什么类型的保险)。我想做一个逻辑回归作为年龄的函数。有没有办法找到最佳回归方程?
例如,现在我在 R 中有这样的东西
glm( cbind(D, C-D)~d_regr+1, data=data, family=binomial)
其中 d_regr 类似于年龄、(age^2)、(age^3)/3 等。
有没有一种很好的方法可以找到一个最佳函数,仅取决于变量年龄 - 例如最大化伪R^2 左右?
【问题讨论】:
-
我建议使用非参数方法(即更平滑的方法)。请参阅包 mgcv。
-
所以你的意思是代替glm?
-
您的目标是了解哪些因素会影响保险投保人和/或车祸?或者只是预测这些因变量?
-
只是为了预测它们
-
我想预测某种“意外权重”
标签: r statistics rstudio static-methods