具有不同观察量的五分位数

Quintiles with different quantity of observations

我正在使用 Stata 调查变量家庭净财富 NetWealth)。

我想构建这个变量的五分位数并使用以下命令——如您所见,我使用调查数据并因此应用调查权重:

xtile Quintile = NetWealth [pw=surveyweight], nq(5)

然后我给出以下命令来检查我得到了什么:

tab Quintile, sum(NetWealth)

这是结果:

      Means, Standard Deviations and Frequencies of DN3001 Net wealth

         5 |
 quantiles |
 of dn3001 |     
-----------+-----------+
         1 |1519.4221
           |43114.959
           |      154
-----------+-----------+
         2 | 135506.67 
           | 74360.816 
           |       179 
-----------+-----------+
         3 | 396712.16 
           |  69715.49 
           |       161 
-----------+-----------+
         4 | 669065.69 
           | 111102.02 
           |       182 
-----------+-----------+
         5 | 2552620.5 
           | 3872350.9 
           |       274 
-----------+-----------+
     Total | 957419.29 
           | 2323329.8 
           |       950 

为什么每个五分位数中的家庭数量不同?特别是在最后一个五分位数?

我能想到的唯一解释是,当 Stata 使用 xtile 构造五分位数时,它从计算中排除了那些呈现 NetWealth 复制值的观察值。我在咨询Stata material.

时也有过这种印象

你怎么看?

你的问题不能完全重现,因为你没有给出一个独立的例子,但一般来说这里没有谜题。

寻求此类分箱的人通常会遇到一个小问题,因为他们的观察次数不是他们想要的基于分位数的分箱数量的倍数(意思是,精确的倍数),但在您的情况下不会咬人计算

.  di 154 + 179 + 161 + 182 + 274
950

表明您有 950 个观测值,即 5 x 190。

更大的问题 - 在这里并且几乎总是 - 来自 Stata 的规则,即 不同观察中的相同值必须分配给相同的 bin。所以,关系很可能是这里的问题。

您可能有三种可能的解决方案。只有一个涉及直接编码。

  1. 接受它。

  2. 做点别的。例如,你为什么要这样做?为什么不使用原始数据?

  3. 尝试不同的边界条件。为此,只需取反变量并将该版本装箱即可。然后边界上的值将以不同的方式跳跃。

在我看来,将随机噪声添加到单独的关系中是完全站不住脚的。它是不可重现的(除了简单地使用相同的程序和相同的设置)并且它会对其他变量的相同观察值产生不同的影响。

这是一个示例,其中 #3 没有帮助,但有时会起作用:

. sysuse auto, clear
(1978 Automobile Data)

. xtile bin5 = mpg, nq(5)

. gen negmpg = -mpg

. xtile bin5_2 = negmpg, nq(5)

. tab bin5

5 quantiles |
     of mpg |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         18       24.32       24.32
          2 |         17       22.97       47.30
          3 |         13       17.57       64.86
          4 |         12       16.22       81.08
          5 |         14       18.92      100.00
------------+-----------------------------------
      Total |         74      100.00

. tab bin5_2

5 quantiles |
  of negmpg |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         19       25.68       25.68
          2 |         12       16.22       41.89
          3 |         16       21.62       63.51
          4 |         13       17.57       81.08
          5 |         14       18.92      100.00
------------+-----------------------------------
      Total |         74      100.00

另见 this paper

第 4 节中的一些讨论

我在文档中看不到任何暗示 xtile 会按照您暗示的方式省略观察。你没有给出支持这一点的精确报价。除非有指示,否则排除任何非缺失值是有悖常理的。

我不会在这里直接评论 pweights 的使用,除非使用 pweights 在这里可能是一个复杂的因素。