【问题标题】:Create barplot from string data using groupby and multiple columns in pandas dataframe使用 groupby 和 pandas 数据框中的多列从字符串数据创建条形图
【发布时间】:2019-01-03 01:56:11
【问题描述】:

我想在 python 中制作一个条形图,其中包含来自“是”或“否”的数据计数的多个 x 类别。我已经开始编写一些代码,但我相信我正在以缓慢的方式获得我想要的解决方案。我可以使用 seaborn、Matplotlib 或 pandas 但散景的解决方案,因为我想制作可按比例缩放的出版质量数字。

最终我想要的是:

  • x 轴上包含“canoe”、“cruise”、“kayak”和“ship”类别的条形图
  • 按“颜色”分组,即绿色或红色
  • 显示“是”响应的比例:即“是”行数除以“红色”和“绿色”的计数,在本例中为 4 个红色和 4 个绿色,但这可能会发生变化。

这是我正在使用的数据集:

import pandas as pd
data = [{'ship': 'Yes','canoe': 'Yes', 'cruise': 'Yes', 'kayak': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Red'},{'ship': 'No', 'cruise': 'Yes', 'kayak': 'No','canoe': 'Yes','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Red'}]
df = pd.DataFrame(data)

这是我开始的:

print(df['color'].value_counts())

red = 4 # there must be a better way to code this rather than manually. Perhaps using len()?
green = 4

# get count per type
ca = df['canoe'].value_counts()
cr = df['cruise'].value_counts()
ka = df['kayak'].value_counts()
sh = df['ship'].value_counts()
print(ca, cr, ka, sh)

# group by color
cac = df.groupby(['canoe','color'])
crc = df.groupby(['cruise','color'])
kac = df.groupby(['kayak','color'])
shc = df.groupby(['ship','color'])

# make plots 
cac2 = cac['color'].value_counts().unstack()
cac2.plot(kind='bar', title = 'Canoe by color')

但我真正想要的是所有 x 类别都在一个图上,只显示“是”响应的结果,并作为“是”的比例而不仅仅是计数。帮忙?

【问题讨论】:

标签: python pandas dataframe plot group-by


【解决方案1】:

不确定我是否正确理解了这个问题。看起来更有意义的是查看每种船类型颜色的答案比例。

import matplotlib.pyplot as plt
import pandas as pd
data = [{'ship': 'Yes','canoe': 'Yes', 'cruise': 'Yes', 'kayak': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Red'},{'ship': 'No', 'cruise': 'Yes', 'kayak': 'No','canoe': 'Yes','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Red'}]
df = pd.DataFrame(data)

ax = df.replace(["Yes","No"],[1,0]).groupby("color").mean().transpose().plot.bar(color=["g","r"])
ax.set_title('Proportion "Yes" answers per of boat type and color')
plt.show()

这意味着例如25% 的绿色独木舟回答“是”。

【讨论】:

  • 很好,您也可以使用df.set_index('color').eq('Yes').mean(level='color').T 获取数据。
  • 谢谢,是的,尽管有多个 x 轴类别,但我想要这样的东西:stackoverflow.com/questions/31845258/
【解决方案2】:

让我们试试吧。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from itertools import groupby

data = [{'ship': 'Yes','canoe': 'Yes', 'cruise': 'Yes', 'kayak': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'No','canoe': 'No','color': 'Red'},{'ship': 'Yes', 'cruise': 'Yes', 'kayak': 'Yes','canoe': 'No','color': 'Red'},{'ship': 'No', 'cruise': 'Yes', 'kayak': 'No','canoe': 'Yes','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Green'},{'ship': 'No', 'cruise': 'No', 'kayak': 'No','canoe': 'No','color': 'Red'}]
df = pd.DataFrame(data)
df1 = df.replace(["Yes","No"],[1,0]).groupby("color").mean().stack().rename('% Yes').to_frame()


def add_line(ax, xpos, ypos):
    line = plt.Line2D([xpos, xpos], [ypos + .1, ypos],
                      transform=ax.transAxes, color='gray')
    line.set_clip_on(False)
    ax.add_line(line)

def label_len(my_index,level):
    labels = my_index.get_level_values(level)
    return [(k, sum(1 for i in g)) for k,g in groupby(labels)]

def label_group_bar_table(ax, df):
    ypos = -.1
    scale = 1./df.index.size
    for level in range(df.index.nlevels)[::-1]:
        pos = 0
        for label, rpos in label_len(df.index,level):
            lxpos = (pos + .5 * rpos)*scale
            ax.text(lxpos, ypos, label, ha='center', transform=ax.transAxes)
            add_line(ax, pos*scale, ypos)
            pos += rpos
        add_line(ax, pos*scale , ypos)
        ypos -= .1


colorlist = ['green','red']
cp = sns.color_palette(colorlist)

ax = sns.barplot(x=df1.index, y='% Yes', hue = df1.index.get_level_values(0), data=df1, palette=cp)
#Below 2 lines remove default labels
ax.set_xticklabels('')
ax.set_xlabel('')
label_group_bar_table(ax, df1)

输出:

【讨论】:

    【解决方案3】:

    不确定您是否正在寻找它,如果它有效,请告诉我。

    import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    tidy_df = pd.melt(df, id_vars=['color'] ,var_name='variable', value_name='value')
    total_df = tidy_df[['variable']].groupby('variable').size().reset_index()
    tidy_df = tidy_df.groupby(['color', 'variable', 'value']).size().reset_index()
    
    merged_df = pd.merge(tidy_df, total_df, on='variable', how='left', suffixes=('_left', '_right'))
    merged_df['proportion'] = merged_df['0_left']/merged_df['0_right']
    
    # merged_df[merged_df['value'] == 'Yes']
    
    palette ={"Green":"green","Red":"red"} # optional you can select your own
    plt.figure(figsize=(12, 6))
    sns.barplot(x='variable', y='proportion', hue='color',data=merged_df[merged_df['value'] == 'Yes'], palette=palette)
    plt.xticks(rotation=65)
    #plt.savefig('numbers.png')
    plt.show()
    

    【讨论】:

    猜你喜欢
    • 2020-05-06
    • 1970-01-01
    • 2014-07-24
    • 1970-01-01
    • 2018-12-22
    • 2018-05-27
    • 2020-03-10
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多