条件密度分布，两个离散变量答案

【问题标题】：Conditional density distribution, two discrete variables条件密度分布，两个离散变量
【发布时间】：2018-07-24 04:35:48
【问题描述】：

我已经使用 cdplot (R) 绘制了我的变量的条件密度分布。我的自变量和我的因变量不是独立的。自变量是离散的（只取 0 到 3 之间的某些值），因变量也是离散的（从 0 到 1 的 11 个水平，步长为 0.1）。

一些数据：

dat <- read.table( text="y           x
3.00     0.0
2.75     0.0
2.75     0.1
2.75     0.1
2.75     0.2
2.25     0.2
3        0.3
2        0.3
2.25     0.4
1.75     0.4
1.75     0.5
2        0.5
1.75     0.6
1.75     0.6
1.75     0.7
1        0.7
0.54     0.8
0        0.8
0.54     0.9
0        0.9
0        1.0
0        1.0", header=TRUE, colClasses="factor")

我想知道我的变量是否适合运行这种分析。

另外，我想知道如何以具有学术和统计意义的优雅方式报告此结果。

【问题讨论】：

热图怎么样？
这似乎适用于比例优势逻辑回归，并且有支持此方法的软件包，其中结果是多项式的。该建议基于您绘制的假设，即两个变量都是有序的，并且结果是有界的。发布一些示例数据，我们可能会提供代码。这就是这个论坛的工作方式。如果您需要统计咨询，那么 SO 不是正确的地方，您应该访问 CrossValidated.com。通常在 x 轴上绘制自变量，您似乎已经反转了这一点。
干杯@42。是的，自变量 (x) 在 x 轴上。我在 SO 中发布了同样的问题，但没有成功（没有答案），所以我决定在这里尝试（我可以在两个论坛中发布同样的问题吗？）。我也一直在运行非线性回归以尝试将指数模型拟合到我的数据中（请参阅其他问题），但这似乎不是很简单。在这里，我想收到一些反馈，以学术意义解释和报告图表的结果。
您是说 CV.com 吗？所以不是在解释图表方面寻求建议的正确地方。正如我写的......发布一些数据，我们可以提供代码。也许你的另一个未回答的问题也有同样严重的无数据无代码缺陷？
我的意思是 stackexchange 交叉验证，抱歉。部分数据已发布。

标签： r math statistics reporting bayesian

【解决方案1】：

这是使用rms-packages `lrm 函数运行的，该函数通常用于二进制结果，但也处理有序分类变量：

library(rms) # also loads Hmisc
      # first get data in the form you described
dat[] <- lapply(dat, ordered)  # makes both columns ordered factor variables

?lrm   
#read help page ... Also look at the supporting book and citations on that page
lrm( y ~ x, data=dat)
# --- output------
Logistic Regression Model

 lrm(formula = y ~ x, data = dat)


 Frequencies of Responses

    0 0.54    1 1.75    2 2.25 2.75    3 3.00 
    4    2    1    5    2    2    4    1    1 

                        Model Likelihood        Discrimination       Rank Discrim.    
                           Ratio Test              Indexes              Indexes       
 Obs             22    LR chi2      51.66    R2             0.920    C       0.869    
 max |deriv| 0.0004    d.f.            10    g             20.742    Dxy     0.738    
                       Pr(> chi2) <0.0001    gr    1019053402.761    gamma   0.916    
                                             gp             0.500    tau-a   0.658    
                                             Brier          0.048                     

         Coef     S.E.     Wald Z Pr(>|Z|)
 y>=0.54  41.6140 108.3624  0.38  0.7010  
 y>=1     31.9345  88.0084  0.36  0.7167  
 y>=1.75  23.5277  74.2031  0.32  0.7512  
 y>=2      6.3002   2.2886  2.75  0.0059  
 y>=2.25   4.6790   2.0494  2.28  0.0224  
 y>=2.75   3.2223   1.8577  1.73  0.0828  
 y>=3      0.5919   1.4855  0.40  0.6903  
 y>=3.00  -0.4283   1.5004 -0.29  0.7753  
 x       -19.0710  19.8718 -0.96  0.3372  
 x=0.2     0.7630   3.1058  0.25  0.8059  
 x=0.3     3.0129   5.2589  0.57  0.5667  
 x=0.4     1.9526   6.9051  0.28  0.7773  
 x=0.5     2.9703   8.8464  0.34  0.7370  
 x=0.6    -3.4705  53.5272 -0.06  0.9483  
 x=0.7   -10.1780  75.2585 -0.14  0.8924  
 x=0.8   -26.3573 109.3298 -0.24  0.8095  
 x=0.9   -24.4502 109.6118 -0.22  0.8235  
 x=1     -35.5679 488.7155 -0.07  0.9420

还有MASS::polr 函数，但我发现Harrell 的版本更平易近人。这也可以通过等级回归来解决。如果这是您选择的路线，quantreg 包是相当标准的。看着你的另一个问题，我想知道你是否尝试过逻辑变换作为线性化这种关系的方法。当然，lrm 与有序变量的图示用法是“幕后”的逻辑转换。

【讨论】：

谢谢@42-确实，我已经尝试通过执行 lm(log(y)~x)、lm(sqrt(y)~x) 和许多其他方法来线性化我的变量之间的关系.但即使这样做，残差的分布仍然很奇怪，因此我无法运行原型线性回归。然后我决定通过使用 nls(y ~ SSlogis(x, Asym, xmid, scal), data = f) [stackoverflow.com/q/48670990/7288088].但是通过这样做很难了解效果大小。您能帮忙解释一下您的分析摘要吗？