【问题标题】:Pandas show correlation between three variables熊猫显示三个变量之间的相关性
【发布时间】:2021-03-03 06:39:53
【问题描述】:

我有一个看起来像这样的 pandas 数据框:

     CRIME ZIP CODE  VICTIM NAME
0    Murder   90210  Mark
1    Theft    70024  John
2    Robbery  34567  Matthew
3    Assault  00345  Luc
4    .....    .....  .....

我需要查明犯罪受害者人数与其邮政编码之间是否存在相关性。更具体地说,如果邮政编码中的人有遭受更多犯罪的趋势,我需要在图表上绘制。

如何使用 pandas 和 seaborn 做到这一点?

【问题讨论】:

    标签: pandas dataframe statistics seaborn correlation


    【解决方案1】:

    我将首先查看摘要统计信息。 (df 是你的数据框)

    df[["CRIME", "ZIP CODE"]].describe()
    

    那我看看模式

    df.groupby('CRIME')['ZIP CODE'].agg(pd.Series.mode)
    

    【讨论】:

    • 谢谢!但是我如何可视化它呢?
    【解决方案2】:

    可能类似于下面的示例数据:

    import pandas as pd
    import seaborn as sns
    import numpy as np
    
    df = pd.DataFrame({'CRIME':np.random.choice(['Murder','Theft','Robbery'],100),
                       'ZIP CODE':np.random.choice(['0','1','2','3'],100),
                       'NAME':np.arange(100)})
    

    这显示了按邮政编码的犯罪数量(不考虑类型):

    df["ZIP CODE"].value_counts().plot(kind="bar")
    

    这显示了每个犯罪的比例(按邮编):

    pd.crosstab(df['CRIME'],df['ZIP CODE'],normalize="index").plot.barh(stacked=True)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-06-23
      • 1970-01-01
      • 1970-01-01
      • 2018-06-22
      • 2019-02-27
      • 1970-01-01
      • 2023-01-24
      相关资源
      最近更新 更多