如何组织和排列变量的观察值?
How to organise and rank observations of a variable?
我有这个包含世界双边贸易数据的数据集已有几年了。
我想确定哪些商品是数据集考虑的时间跨度内出口最多的商品。
数据集由以下变量组成:
- "year"
- "hs2",包含一个两位数,表示出口的商品
- "exp_val",给出某年的出口值,为了那个好
- "exp_qty",给出某年该商品的出口数量
基本上,我想获得某种商品出口数量的总和,所以输出如
hs2 exp_qty
01 34892
02 54548
... ...
等等。现在,"hs2" 列给了我大量的观察结果,正如你所理解的,它们重复了多次(因为变量随时间和目的地国家而变化)。因此,任务是让每个 hs2 号码只有一次,对应的值为 "total" exports.
另外(但那只是一个加号,我可以自己检查数字)得到一个按 exp_qty 排序的结果会很好,所以有一个出口最多的商品的排名按数量。
以下内容可能是您需要的开始。
collapse (sum) exp_qty, by(hs2)
gsort -exp_qty
collapse
将内存中的数据汇总为每个 hs2 值的一个观察值,对 exp_qty 的值求和。 gsort
然后按 exp_qty
的降序对折叠的数据进行排序,因此第一个观察值将是最大的。有关详细信息,请参阅 help collapse
和 help gsort
。
我有这个包含世界双边贸易数据的数据集已有几年了。 我想确定哪些商品是数据集考虑的时间跨度内出口最多的商品。
数据集由以下变量组成:
- "year"
- "hs2",包含一个两位数,表示出口的商品
- "exp_val",给出某年的出口值,为了那个好
- "exp_qty",给出某年该商品的出口数量
基本上,我想获得某种商品出口数量的总和,所以输出如
hs2 exp_qty
01 34892
02 54548
... ...
等等。现在,"hs2" 列给了我大量的观察结果,正如你所理解的,它们重复了多次(因为变量随时间和目的地国家而变化)。因此,任务是让每个 hs2 号码只有一次,对应的值为 "total" exports.
另外(但那只是一个加号,我可以自己检查数字)得到一个按 exp_qty 排序的结果会很好,所以有一个出口最多的商品的排名按数量。
以下内容可能是您需要的开始。
collapse (sum) exp_qty, by(hs2)
gsort -exp_qty
collapse
将内存中的数据汇总为每个 hs2 值的一个观察值,对 exp_qty 的值求和。 gsort
然后按 exp_qty
的降序对折叠的数据进行排序,因此第一个观察值将是最大的。有关详细信息,请参阅 help collapse
和 help gsort
。