如何组织和排列变量的观察值?

How to organise and rank observations of a variable?

我有这个包含世界双边贸易数据的数据集已有几年了。 我想确定哪些商品是数据集考虑的时间跨度内出口最多的商品。

数据集由以下变量组成:

基本上,我想获得某种商品出口数量的总和,所以输出如

hs2  exp_qty
01   34892
02   54548
...   ...

等等。现在,"hs2" 列给了我大量的观察结果,正如你所理解的,它们重复了多次(因为变量随时间和目的地国家而变化)。因此,任务是让每个 hs2 号码只有一次,对应的值为 "total" exports.

另外(但那只是一个加号,我可以自己检查数字)得到一个按 exp_qty 排序的结果会很好,所以有一个出口最多的商品的排名按数量。

以下内容可能是您需要的开始。

collapse (sum) exp_qty, by(hs2)
gsort -exp_qty

collapse 将内存中的数据汇总为每个 hs2 值的一个观察值,对 exp_qty 的值求和。 gsort 然后按 exp_qty 的降序对折叠的数据进行排序,因此第一个观察值将是最大的。有关详细信息,请参阅 help collapsehelp gsort