【问题标题】:R: trouble with mle() error: non-finite finite-difference value [2]R:mle() 错误的问题:非有限差分值 [2]
【发布时间】:2018-02-28 22:06:48
【问题描述】:

我有一个简单的x, y data.frame。

mydata <- data.frame(days = 1:96, risk = c(5e-09, 5e-09, 5e-09, 1e-08, 4e-08, 6e-08, 9e-08, 1.5e-07, 4.2e-07, 
                                           7.2e-07, 1.02e-06, 1.32e-06, 1.66e-06, 2.19e-06, 2.76e-06, 3.32e-06, 
                                           3.89e-06, 4.55e-06, 5.8e-06, 7.16e-06, 8.51e-06, 9.85e-06, 1.138e-05, 
                                           1.396e-05, 1.672e-05, 1.947e-05, 2.222e-05, 2.521e-05, 2.968e-05, 
                                           3.439e-05, 3.909e-05, 4.378e-05, 4.894e-05, 5.697e-05, 6.546e-05, 
                                           7.392e-05, 8.236e-05, 9.16e-05, 0.00010573, 0.00012063, 0.00013547, 
                                           0.00015025, 0.00016642, 0.00019127, 0.00021743, 0.00024343, 0.00026924, 
                                           0.00029818, 0.00034681, 0.00039832, 0.00044932, 0.00049976, 0.0005451, 
                                           0.00056293, 0.00057586, 0.00058838, 0.0006005, 0.00061562, 0.00065079, 
                                           0.00068845, 0.00072508, 0.00076062, 0.00079763, 0.00084886, 0.00090081, 
                                           0.0009507, 0.00099844, 0.00104427, 0.00108948, 0.00113175, 0.00117056, 
                                           0.00120576, 0.00123701, 0.00126253, 0.00128269, 0.00129757, 0.00130716, 
                                           0.00131291, 0.00132079, 0.0013216, 0.00131392, 0.00129806, 0.00127247, 
                                           0.00122689, 0.00117065, 0.00110696, 0.00103735, 0.00095951, 0.00085668, 
                                           0.0007517, 0.00065083, 0.000556, 0.0004669, 0.00037675, 0.00029625, 
                                           0.00093289))

从下图判断,我认为Weibull(3, 0.155) 非常适合我的数据。

plot(1:96, dweibull(mydata$risk, shape = 3, scale = 0.155), type = "l", xlab = "days", ylab = "risk")
lines(mydata, type = "l", col = "grey")
legend("topleft", c("Data", "Estimate"), col = c("black", "grey"), lty = c(1, 1))

我编写了一个计算负对数似然的函数,该函数将传递给mle

estimate <- function(kappa, lambda){
  -sum(dweibull(mydata$y, shape = kappa, scale = lambda, log = TRUE))
}

我打电话给mle,提供我的初始参数估计,得到以下错误。

> mle(estimate, start = list(kappa = 3, lambda = 0.155))
Error in optim(start, f, method = method, hessian = TRUE, ...) : 
  non-finite finite-difference value [2]
In addition: There were 50 or more warnings (use warnings() to see the first 50)

这里出了什么问题?

【问题讨论】:

    标签: r statistics estimation mle


    【解决方案1】:

    你想做什么?据我所知,您有一个包含 96 个“风险”值的数据集,并且您希望使用 weibull 拟合它的分布。请注意,如果是这种情况,“天”根本不相关。你有一个无序的值向量。

    上图具有误导性。您计算dweibull() 的风险值。该图表明dweibull(risk) 大致等于风险。这是一个与 weibull 完全不同的声明,给定的参数非常合适。

    例如,以下是您的数据分布: hist(mydata$risk, breaks=15) 而您的参数在相关范围内的威布尔密度如下所示:curve((function(x) dweibull(x, shape=3, scale=0.155))(x), 0, 0.0014)

    因此,这些分布非常不同。我会说你的经验分布是均匀的加上质量为零,而不是威布尔。

    现在到最后一个问题:由于分布不适合,优化器会遇到数值奇点。我不太了解mle(),但稍加调整maxLik::maxLik() 就会显示问题:

    estimate <- function(par){
       Kappa <- par[1]
       Lambda <- par[2]
       dweibull(mydata$risk, shape = Kappa, scale = Lambda, log = TRUE)
    }
    summary(maxLik::maxLik(estimate, start=c(Kappa=3, Lambda=0.155), method="BHHH"))
    

    给你

    --------------------------------------------
    Maximum Likelihood estimation
    BHHH maximisation, 43 iterations
    Return code 2: successive function values within tolerance limit
    Log-Likelihood: 682.743 
    2  free parameters
    Estimates:
            Estimate Std. error t value Pr(> t)    
    Kappa  0.4849129  0.0473720  10.236 < 2e-16 ***
    Lambda 0.0002953  0.0001028   2.873 0.00407 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    --------------------------------------------
    

    请注意,我做了一项重大更改:从对数似然中删除 sum,并使用 BHHH 优化器。这通常比基于单个求和似然的优化更稳定。您还应该认真考虑为估计编写解析导数。

    您现在可以检查这些分布是否看起来更加相似。

    【讨论】:

    • 谢谢。关于您的最后评论,我如何检查分布现在看起来更相似?我试过plot(dweibull(1:95, shape = 0.4838894, scale = 0.0002961)),但它看起来与我的数据分布不同?
    • 你可以从qqplot之类的简单的东西开始。您还可以看到这两个分布的矩和其他特征有多相似。最后,您可以计算这两个分布之间的某种距离——例如,Kulback-Leibler 距离(与对数似然相同)。后者也适用于某些测试。
    • 是否有一种快速的图形方式来查看两个分布是否相似?沿着绘制密度线。
    • fitdistrplus::plotdist(risk, "weibull", list(shape=0.4838894, scale=0.0002961)) 在我看来做得很好。 (risk 是您的风险变量)。
    • 谢谢。我想澄清mydata 实际上包含密度(我没有原始数据),所以我认为我的第一个图(我将威布尔密度与mydata$risk 进行比较的地方)非常合适。在您的回复中,我们在技术上查看mydata$risk 的密度,即密度的密度...正确吗?
    猜你喜欢
    • 2015-02-26
    • 2016-03-25
    • 2018-01-02
    • 2016-09-27
    • 2017-09-14
    • 1970-01-01
    • 2021-02-18
    • 2021-12-18
    • 2018-01-27
    相关资源
    最近更新 更多