【问题标题】:Determine if data is related in R [closed]确定数据在 R 中是否相关 [关闭]
【发布时间】:2016-10-07 15:48:01
【问题描述】:

我有两个数据集,我想看看它们之间是否存在关系。

第一个数据集包含用于宣传健康运动的资金,而第二个数据集包含同一时期内的伤亡人数。我想看看花更多的钱是否意味着更少的伤亡。比较两者的最佳方法是什么?

关于数据集,两者都包含日期和值。

【问题讨论】:

  • 你已经尝试了什么?用教科书、谷歌和上面的搜索栏,你自己无法弄清楚的是什么?
  • 只需输入您的伤亡数据into Google correlate,您就可以看到与伤亡相关的各种变量。

标签: r statistics comparison


【解决方案1】:

假设

set.seed(44) 
deaths<- 10:1 + sample.int(3, 10, replace = T)

spent<- seq(100, 550, by = 50 )

获取数据后,您要做的第一件事就是查看数据。这可以通过

相对轻松地完成
plot(spent, deaths)

产生

所以看起来我们花费的越多,死亡人数就越少。这就说得通了。但是我们如何量化这种说法。使用cor() 将为我们提供spentdeaths 两个变量之间的相关性。

cor(spent, deaths)
# [1] -0.9809581

所以看起来它们非常强(并且负相关)。另一种简单的方法(与cor() 密切相关)是拟合线性模型。

model<- lm(deaths~spent)

summary() 调用会产生很多关于您刚刚拟合的模型的有用信息,其解释超出了本文的范围,但可以通过快速谷歌搜索轻松找到。

summary(model) 

#Call:
#lm(formula = deaths ~ spent)

#Residuals:
# Min       1Q   Median       3Q      Max 
#-0.89697 -0.51515 -0.05758  0.46364  1.01818 

#Coefficients:
#            Estimate Std. Error t value Pr(>|t|)    
#(Intercept) 14.151515   0.539649   26.22 4.80e-09 ***
#spent       -0.021697   0.001519  -14.29 5.62e-07 ***
#---
#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#Residual standard error: 0.6898 on 8 degrees of freedom
#Multiple R-squared:  0.9623,   Adjusted R-squared:  0.9576 
#F-statistic: 204.1 on 1 and 8 DF,  p-value: 5.622e-07

【讨论】:

    猜你喜欢
    • 2022-12-31
    • 1970-01-01
    • 1970-01-01
    • 2020-09-22
    • 2020-01-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多