【发布时间】:2019-01-27 22:55:47
【问题描述】:
我正在尝试预测燃气管道泄漏所需的持续时间。我使用了 15 个特征,其中最重要的一个是“管道安装年”。我拥有的最新泄漏数据是 2017 年发生的泄漏,该管道是 2009 年安装的2009 年之后安装。我之所以这么说是因为我首先根据他们的“安装年份”对数据进行排序,然后进行训练测试拆分以查看它在预测测试数据集方面的作用,我得到了 %93 R 平方但是当我转身在训练测试拆分中关闭 shuffle 功能(这意味着与正常的训练测试拆分不同,子集是随机选择的,数据将按照第一个 %80 训练和最后一个 %20 测试的顺序),看看它是否可以预测他们“安装年份”的管道不在模型训练中,我只得到了 %30 R 的平方。我知道“安装年份”是一个非常重要的特征,ML 模型无法预测其“安装年份”未在模型中训练的管道。
我也在正常的 ML 模型之上使用生存回归。我不确定在 COX PH 模型和其他多变量生存模型中是否也会遇到同样的问题。 COX PH 能否预测 2009 年以后安装的管道的危险比和生存函数?
【问题讨论】:
-
我建议目视检查持续时间的散点图与 15 个特征中的每一个特征,以确定数据建议的任何明显的数据转换,例如 exp、log 等。这既简单又快速,如果您看到一些明显的东西,它将有助于建模。
-
目前听起来不像是一个编码问题。也没有初始编码工作的数据或演示。
标签: linear-regression cross-validation survival-analysis cox-regression