【问题标题】:COVID-19 Data visualization with R [closed]使用 R 的 COVID-19 数据可视化 [关闭]
【发布时间】:2020-05-31 21:27:45
【问题描述】:

我想利用这段时间来提高我的 R 技能。我选择 CoVID-19 作为我的主题,并希望可视化一些数据并可能对其进行分析。我会对全球化如何与流行病联系起来感兴趣(也许通过回归分析)。但首先我想可视化一些数据。你有什么提示哪个包对我的目的有帮助吗? 我已经尝试了一点,但我并没有真正到达任何地方。 我的想法是一个简单的时间序列图,其中包含 Ecdc 的累积数据,现在几乎可以在每份报纸上找到。 作为我使用的数据:

data<- read.csv(file= "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/ecdc/total_cases_per_million.csv")

我已经查看了一些教程并在 Stackoverflow 中进行了研究。到目前为止,我无法输出逻辑图。我的目标是在 R 中重新创建以下两张图片:

【问题讨论】:

标签: r ggplot2 regression data-visualization


【解决方案1】:

由于问题似乎主要是关于如何开始可视化这些数据,这里是如何绘制一个简单的时间序列图,其中一些国家/地区用 ggplot2 包突出显示。

库和包导入

library(tidyverse)

data<- read.csv(file= "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/ecdc/total_cases_per_million.csv")

数据采用所谓的“宽”格式,其中列是日期或区域。 ggplot2 更适用于长数据,其中每个观察都是一行。您可以按如下方式转换它们:

long <- pivot_longer(data, World:Zimbabwe)

接下来,我们需要通过将日期列转换为 Date 类并丢弃 NA 观察来稍微清理数据(如果您现在收到 NA 警告,则不需要但建议使用后者这可能是人为错误而不是数据错误)。

long$date <- as.Date(long$date)
long <- long[!is.na(long$value),]

我们可以选择一些我们想强调的国家/地区。

highlight_countries <- c("Russia", "San.Marino", "United.States")

然后我们可以用它制作一个线图。有很多关于如何使用 ggplot 的教程,因此您可以搜索那些以根据您的特定需求自定义绘图。

ggplot(long, aes(x = date, y = value)) +
  geom_line(aes(group = name,
                colour = ifelse(name %in% highlight_countries, name, NA))) +
  scale_colour_discrete(name = "Regions", labels = c(highlight_countries, "Other"))

reprex package (v0.3.0) 于 2020 年 5 月 31 日创建

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-20
    • 1970-01-01
    • 2020-08-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多