【发布时间】:2017-01-23 20:10:21
【问题描述】:
您能告诉我如何计算下面的变量 A、B、C、D 吗? 这是我使用熊猫的第二天,我很难找到计算它们的方法。
这是我的数据集:
d = [{'city':'new-york', 'code':1111, 'recv':1977.44, 'send':0.0},
{'city':'new-york', 'code':2222, 'recv':6758926663.7439995, 'send':0.0},
{'city':'new-york', 'code':3333, 'recv':189769.38666666666, 'send':0.0},
{'city':'amsterdam', 'code':4444, 'recv':2356311.024, 'send':263030.0906666667},
{'city':'amsterdam', 'code':5555, 'recv':959.968, 'send':8.063999999999998}]
让我们构建数据框:
df = pandas.DataFrame(d)
分组很重要,数据集更大,但为简单起见,我们有 2 行; “城市”和“代码”
In [35]: ixmac = df.groupby(['city','code']).sum().loc[:, ['recv','send']]
我们的数据集中有很多不同的城市
In [36]: len(set(ixmac.index.get_level_values('city')))
Out[36]: 2
我们的数据集中有很多不同的代码
In [37]: len(set(ixmac.index.get_level_values('code')))
Out[37]: 5
我们在一个特定的城市有很多不同的代码:
In [39]: len(set(ixmac.loc['new-york'].index.get_level_values('code')))
Out[39]: 3
现在,我想使用分配方法 http://pandas.pydata.org/pandas-docs/stable/dsintro.html#assigning-new-columns-in-method-chains 向数据框 ixmac 添加一列
ratio_asn = A / B 在哪里
A = len(set(ixmac.loc['new-york'].index.get_level_values('code')))
B = len(set(ixmac.index.get_level_values('code')))
但不是指定'new-york',我希望它自动从相应的行派生
和
ratio_recv = C / D
C 很接近ixmac.query('city==["new-york"] & code==[1111]').loc[:,['recv']]
但只取'recv'数字而不是有问题的数据框,
并且 'new-york' 和 '1111' 应该从相应的行和列自动派生,换句话说
In [52]: ixmac.query('city==["new-york"] & code==[1111]').loc[:,['recv']]
Out[52]:
recv
city code
new-york 1111 1977.44
D = ixmac.query('city==["new-york"]').sum().loc['recv']
但我不希望指定“纽约”,而是从相应的行派生出来
目标是在名为ration_asn 和ratio_recv 的数据帧ixmac 中添加2 行,并根据上述示例计算这两列中的每个单元格。
您能否建议/帮助计算 A、B、C、D ?
编辑:这是最终结果的样子:
recv send ratio_asn ratio_recv
city code
amsterdam 4444 2.356311e+06 263030.090667 0.4 =2/5 0.00034849062450182164 =2.356311e+06/2.356311e+06
5555 9.599680e+02 8.064000 0.4 =2/5 1.4197610070222678e-07 =9.599680e+02/2.356311e+06
new-york 1111 1.977440e+03 0.000000 0.6 =3/5 2.9245685332491435e-07 =1.977440e+03/2.356311e+06
2222 6.758927e+09 0.000000 0.6 =3/5 0.9996230086742471 =6.758927e+09/2.356311e+06
3333 1.897694e+05 0.000000 0.6 =3/5 2.8066268297069442e-05 =1.897694e+05/2.356311e+06
In [8]: total = 2.356311e+06 + 9.599680e+02 + 1.977440e+03 + 6.758927e+09 +1.897694e+05
In [9]: total
Out[9]: 2.356311e+06
【问题讨论】:
-
你能发布你想要的数据集吗?
-
@MaxU 非常感谢您的调查。我用请求的信息编辑了原始问题。
标签: python pandas data-analysis