【发布时间】:2017-10-13 03:01:58
【问题描述】:
我不确定要在此处提供哪些数据,并且无法在不共享我的完整数据的情况下提供复制问题的方法。我只能提供代码和错误信息,希望有人能认识到这一点。
我有一个模型,它使用带有对数转换目标变量“mod.rangerRF.logknn”的游侠随机福雷斯特。我的 newdata 有数万条记录,但是当我预测一小部分(准确地说是 5 个)返回 NaN 时。
这只发生在模型的日志版本中。
预测单个观察的示例:
predict(mod.rangerRF.logknn, newdata = filter(p.test.knn, id == 31874))
[1] 15.40513
返回一个数字,然后我可以对其进行反向转换。除了返回 NaN 的 5 个问题记录外,其他所有记录都是这种情况。
> predict(mod.rangerRF.logknn, newdata = filter(p.test.knn, id == 31873))
[1] NaN
我无法进行反向变换的 NaN。
数万行,数百个特征。运行预测时仅返回 5 个 NaN 实例。
我不确定从哪里开始调试。
在预处理过程中,我确保了完整的数据,没有缺失值。由于使用了虚拟变量,所有数据都是数字的。
有人知道这个问题吗?关于我可以在哪里查看的任何指针?
这里的 cmets 是模型的输出
> print(mod.rangerRF.logknn)
Random Forest
30471 samples
193 predictor
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 24376, 24376, 24378, 24377, 24377
Resampling results across tuning parameters:
mtry RMSE Rsquared
2 0.5125155 0.2832599
5 0.4936741 0.3343648
10 0.4845437 0.3592030
20 0.4797720 0.3732469
40 0.4778534 0.3790508
RMSE was used to select the optimal model using the smallest value.
The final value used for the model was mtry = 40.
【问题讨论】:
-
我们需要查看数据来帮助您。也可能是模型
-
你能发布
print(mod.rangerRF.logknn)的输出吗? -
您好,上面已添加。如果我可以提供任何其他信息,请告诉我
-
另外,由于我使用 knnImpute 处理缺失值,因此数据已被缩放。我想知道这是否是一个因素?
标签: r prediction r-caret