【问题标题】:How to plot the difference between two density distributions如何绘制两个密度分布之间的差异
【发布时间】:2017-05-19 09:34:24
【问题描述】:

我已经训练了一个模型来预测某个变量。当我现在使用此模型来预测所述值并将此预测与实际值进行比较时,我得到以下两个分布。

对应的R Data Frame如下:

x_var | kind
3.532 | actual
4.676 | actual
...
3.12 | predicted
6.78 | predicted

这两个分布显然具有略微不同的均值、分位数等。我现在想做的是将这两个分布合并为一个(尤其是因为它们非常相似),但 像以下thread

相反,我想绘制一个密度函数来显示实际值和预测值之间的差异,并让我能够说 例如50% 的预测值在实际值的 -X% 和 +Y% 范围内

我尝试绘制predicted-actual 之间的差异以及与相应组的平均值相比的差异。然而,这两种方法都没有产生我想要的结果。对于绘制的分布,能够做出上述陈述尤为重要,即 50% 的预测在实际值的 -X% 和 +Y% 范围内。如何实现?

【问题讨论】:

    标签: r ggplot2 density-plot


    【解决方案1】:

    我们把这两个分布看成df_actual,df_predicted,然后计算

    # dataframe with difference between two distributions
    df_diff <- data.frame(x = df_predicted$x - df_actual$x, y = df_predicted$y - df_actual$y)
    

    然后通过以下方式找到相对百分比差异:

    x_diff = mean(( df_diff$x - df_actual$x) / df_actual $x) * 100
    y_diff = mean(( df_diff$y - df_actual$y) / df_actual $y) * 100
    

    这将为您提供 % 预测 x 和 y 是否为 +/-。这是我的看法,也请关注this thread 来显示和测量两条分布曲线之间的面积。

    我希望这会有所帮助。

    【讨论】:

    • 我不明白它应该如何工作。如果进行了上述计算,df_diff 将只有两列 x 和 y 包含相同的值...
    • 实际上,df_diff 将包含实际数据点和预测数据点之间的差异,即。 df_predicted$x - df_actual$x等等..
    • 是的,但是因为我只能从predicted 中减去actual,所以xy 将包含相同的值。例如。我取3.823(我的第一个预测值),从中减去3.637(我的第一个实际值),因此得到0.186。我的 DF 然后看起来像 x | y 0.186 | 0.186 0.285 | 0.285
    • 哦,明白了,我假设您的数据集具有不同的 xy
    【解决方案2】:

    ParthChaudhary 是对的 - 您不是要减去分布,而是要分析差异的分布。但请注意减去相应对中的值,否则actual - predicted 的差异将被actual(和predicted)单独的方差所掩盖。即,如果你有类似的东西:

    x y type
    0 10.9 actual
    1 15.7 actual
    2 25.3 actual
    ...
    0 10 predicted
    1 17 predicted
    2 23 predicted
    ...
    

    你会merge(df[df$type=="actual",], df[df$type=="predicted",], by="x"),然后计算并绘制y.x-y.y

    【讨论】:

      【解决方案3】:

      为了更好地量化预测分布和实际分布之间的差异是否显着,您可以考虑使用 R 中的 Kolmogorov-Smirnov 检验,可通过函数 ks.test 获得

      【讨论】:

        猜你喜欢
        • 2020-03-30
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-06-21
        • 1970-01-01
        • 2010-12-25
        相关资源
        最近更新 更多