【发布时间】:2020-08-12 23:13:05
【问题描述】:
我正在尝试使用 mlogit 和土地覆盖变化数据来实现多项逻辑回归。但是,因为mlogit 似乎是围绕“选择”数据构建的,并且示例仅限于此类数据,所以我很难确定使用这个R 包进行分析的可行性。我相信多项逻辑回归是适合我正在解决的数据集和问题的统计方法,只是不确定mlogit 是否有能力处理数据。
让我们以这个土地覆盖变化数据集为例,其结构类似于我自己的:
dat.url<-'http://www.css.cornell.edu/faculty/dgr2/_static/files/R_ds/lcc.csv'
data<-read.csv(dat.url)
head(data)
cov dr ds t lspos text
1 CC 2924.3 4853 Nt A LC
2 CC 2535.2 5242 Nt A LC
3 CO 2146.1 4957 Ci A LC
4 NO 2442.3 4690 Ci A LC
5 NC 2831.4 5079 Ci A LC
6 OO 1576.9 4283 Nt A LC
cov 变量是表示土地覆盖在两个时间段之间如何变化的复合代码:第一个字符是测量初始时间的土地覆盖类别,第二个字符是结束时间的土地覆盖类别.例如,CC 表示土地覆盖没有变化的样本点——在两个时间段都是封闭的树冠林。或者,CO 表示土地覆盖从初始时间段的封闭冠层转变为结束时间段的开放冠层的点。其余变量是土地覆盖变化的预测因子:dr - 到道路的距离,ds - 到定居点的距离,t - 土地使用权等级,lspos - 景观位置等级,text - 土壤质地等级。
我对@987654336@ 的担忧是,这不是大多数示例中的“选择”数据。因此,如果我尝试关注this exercise published by Train & Croissant,将数据转换为mlogit 的长格式会导致:
dat.mlog<-dfidx(data, varying=NULL, shape="wide", choice="cov")
head(dat.mlog)
~~~~~~~
first 10 observations out of 9576
~~~~~~~
cov dr ds t lspos text idx
1 TRUE 2924.3 4853 Nt A LC 1:CC
2 FALSE 2924.3 4853 Nt A LC 1:CN
3 FALSE 2924.3 4853 Nt A LC 1:CO
4 FALSE 2924.3 4853 Nt A LC 1:NC
5 FALSE 2924.3 4853 Nt A LC 1:NN
6 FALSE 2924.3 4853 Nt A LC 1:NO
7 FALSE 2924.3 4853 Nt A LC 1:OC
8 FALSE 2924.3 4853 Nt A LC 1:ON
9 FALSE 2924.3 4853 Nt A LC 1:OO
10 TRUE 2535.2 5242 Nt A LC 2:CC
~~~ indexes ~~~~
id1 id2
1 1 CC
2 1 CN
3 1 CO
4 1 NC
5 1 NN
6 1 NO
7 1 OC
8 1 ON
9 1 OO
10 2 CC
indexes: 1, 2
因此,它会为每个样本点的所有 idx 类别中的预测变量产生相同的值 - 使用 dfidx() 格式化的方式,我的解释是,对于每个单独的点,我的预测变量的结果每次土地覆盖转换都是一样的。这似乎可能会给这些数据的分析带来问题。虽然我无法在这个示例数据集上运行 mlogit() 模型本身(另一个单独的问题),但当我在自己的数据上运行它时,结果是每个预测变量的 p 值 = 1——似乎有点可疑。有没有人知道这是否确实是针对此类土地覆盖数据的mlogit 和dfidx() 的正确实现?
请注意,有一些已发表的论文使用 mlogit 和土地覆盖数据(尽管我没有找到任何支持代码来查看它是如何实现的),尽管我可以使用 nnet/multinom 运行这些模型,我希望能够使用mlogit,这样我就可以将随机效应项合并到我的模型中。任何帮助将不胜感激!
【问题讨论】:
-
这似乎不是适合 Stack Overflow 的特定编程问题。如果您对适当使用各种统计模型有一般性问题,那么您应该通过Cross Validated 询问此类问题。你更有可能在那里得到更好的答案。
-
我考虑过交叉验证,但是,用于分析的统计模型毫无疑问 - 这将是一个多项逻辑回归。问题是关于特定于 R 中 mlogit 包的这些数据的格式和适用性,以及它被编码到这个包中的方式。如果这似乎仍然更适合 CV,我可以在那里发布,但由于它归结为 R 包细节,我认为这是更好的出口。