如何组织和排列变量的观察值？

Question

我有这个包含世界双边贸易数据的数据集已有几年了。我想确定哪些商品是数据集考虑的时间跨度内出口最多的商品。

数据集由以下变量组成：

基本上，我想获得某种商品出口数量的总和，所以输出如

hs2  exp_qty
01   34892
02   54548
...   ...

等等。现在，"hs2" 列给了我大量的观察结果，正如你所理解的，它们重复了多次（因为变量随时间和目的地国家而变化）。因此，任务是让每个 hs2 号码只有一次，对应的值为 "total" exports.

另外（但那只是一个加号，我可以自己检查数字）得到一个按 exp_qty 排序的结果会很好，所以有一个出口最多的商品的排名按数量。

Answer 1

以下内容可能是您需要的开始。

collapse (sum) exp_qty, by(hs2)
gsort -exp_qty

collapse 将内存中的数据汇总为每个 hs2 值的一个观察值，对 exp_qty 的值求和。 gsort 然后按 exp_qty 的降序对折叠的数据进行排序，因此第一个观察值将是最大的。有关详细信息，请参阅 help collapse 和 help gsort。

How to organise and rank observations of a variable?