【发布时间】:2016-05-07 20:42:00
【问题描述】:
我拥有这个数据集,其中包含几年的世界双边贸易数据。 我想确定在数据集考虑的时间跨度内哪些商品是出口最多的商品。
数据集由以下变量组成:
- “年”
- “hs2”,包含一个两位数的数字,用于说明出口的商品
- “exp_val”,给出某年出口的价值,用于该商品
- "exp_qty",表示某年货物的出口数量
基本上,我想得到某种商品出口数量的总和,所以输出像
hs2 exp_qty
01 34892
02 54548
... ...
等等。现在,“hs2”列给了我大量的观察结果,正如你所理解的,它们会重复多次(因为变量会随着时间和目的地国家的不同而变化)。因此,任务是让每个 hs2 编号只有一次,对应的值为“total”exports。
另外(但这只是一个加号,我可以自己检查数字)如果能得到按 exp_qty 排序的结果,这样就可以按数量对出口最多的商品进行排名。
【问题讨论】:
标签: sorting dataset stata rank cumulative-sum