【问题标题】:How to compare daily active data to cumulative data?如何比较每日活跃数据和累积数据?
【发布时间】:2021-01-14 16:00:30
【问题描述】:

所以我正在研究美国德克萨斯州的 COVID-19 数据。 我有 2 个假设可以研究

  1. 住院率越高,死亡率越高
  2. ICU 率越高,死亡率越高。

死亡数据 - https://dshs.texas.gov/coronavirus/TexasCOVID19DailyCountyFatalityCountData.xlsx

住院/ICU 数据 - https://dshs.texas.gov/coronavirus/CombinedHospitalDataoverTimebyTSA.xlsx

因此,证明这些假设的基本方法应该是比较累积/每日死亡率数据与累积/每日住院/ICU 数据。

主要问题是死亡数据是累积的,而住院/重症监护室数据是每天的活动数。无论如何这两个可以比较,如果是,那么如何?或者有什么我们可以做的吗?

【问题讨论】:

    标签: python pandas matplotlib graph hypothesis-test


    【解决方案1】:

    累积数据是每日数据的累积版本,反过来,每日数据是差分累积数据。

    我假设累计死亡人数是每天累积的,因此您可以提取每天的死亡人数(例如np.diff)。这样,每个数据都将是一个每日数字。请注意,在这种情况下,您最终会丢失一个点(最后)。

    您还可以决定使用 cumsum 累积住院或 ICU 数据的数量,以便与累积的设施数量进行比较。

    【讨论】:

    • 你说的似乎有道理,但正如我所说,住院或 ICU 数据的数量基本上是每天活跃病例的总数,更像是这样。第 1 天 - 17 人入院 第 2 天 - 17 人(但这里可能有 2 人出院和 2 名新患者) 所以在这种情况下,每天主动住院治疗让我很难过。第 3 天 - 13 人住院(有很多可能性,例如 4 人出院或 6 人出院,而另外 2 人入院)所以在这种情况下不可能实现 cumsum
    • 问题是:你不知道。这就是为什么您需要将它们放在同一时间并进行比较。您无法推断出新患者的数量、治愈的患者数量等等。您想检验“住院率越高,设施率越高”这一假设。因此,如果您想目视检查,您只需要绘制它们(导数或反导数)。有意义吗?
    • 啊,好吧,我明白了你想说的这就是我的情节的样子。 github.com/Data-Analytics-COVID-Hypothesis/Hypothesis-1/blob/…你能不能看一下,确认你的意思。
    • 通过肉眼,我们在您的绘图中看到红色曲线大致是蓝色曲线的反导数(例如,在 5 月左右,累计死亡人数的增加对应于每日死亡人数的增加# 住院人数)。您应该区分死亡人数与时间(例如np.diff,不要忘记删除时间向量的最后一个元素以匹配形状),或者累积住院人数(使用np.cumsum)。
    • 现在,当我对死亡人数执行 np.diff() 时,这两个图变得无法比较,我们看不到任何关系,因为一切都只是一些随机数上下跳跃而没有任何关系
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-03-08
    • 1970-01-01
    • 1970-01-01
    • 2021-06-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多