【发布时间】:2019-08-29 21:37:20
【问题描述】:
我有以下类型的数据框,代表每家公司每年发行的金融产品的数量,以及这些数量在每年总发行量中所占的百分比。
year company Volume Volume Year %
1 2013 AWK 347902000 21927606761 0.015865936
2 2013 DAR 177977000 21927606761 0.008116572
3 2013 DTC 615627000 21927606761 0.028075431
4 2013 GMT 538456000 21927606761 0.024556077
5 2013 CLW 407497000 21927606761 0.018583743
6 2013 AYI 31970000 21927606761 0.001457979
对于每一年,我想选择最大的发行公司,它们合计占市场总量的 70%。
我可以手动执行此操作,但我正在寻找一个可以轻松应用于我的大型数据集的公式,并且将来可以大量使用!
【问题讨论】:
-
请尝试自己编写代码,然后告诉我们您遇到的问题。只需将其分解为子问题。首先,您将如何添加一个新列 PctVol,以显示该年每家公司的交易量占总市场交易量的百分比?接下来,按年份对数据帧进行排序,然后按 PctVol 的降序排列。等等
-
@smci '%' 行表示每家公司的交易量占当年总市场交易量的百分比。当然,我可以每年手动执行此操作,我正在寻找更快的公式,因为我的数据集非常大,将来我将不得不执行很多相同的过程!
-
RomainBerrou:没有任何关于它的手册:如果您只是按照我的提示进行操作,您将很快达到对
cumsum(PctVol)的需求。自从officially we're not supposed to spoonfeed users 以来,我不想一次给你所有的提示。您确实应该在发布问题之前尝试编写一三行代码,至少可以帮助您根据特定的代码问题(不仅仅是“这是我的规范”)来构建问题。 -
Smci:不是故意冒犯你的。在决定在线询问之前,我已经写了很多行代码,但没有一个真正有意义,所以我决定不发布任何代码。但我理解你的意思,不会再这样做了,特别是如果这意味着要得到居高临下的反馈作为回报。
-
欢迎来到 SO,一旦您开始回答问题,您可能会对这些用户产生新的同理心。
标签: r cumulative-sum