具有不同观察量的五分位数
Quintiles with different quantity of observations
我正在使用 Stata 调查变量家庭净财富 NetWealth
)。
我想构建这个变量的五分位数并使用以下命令——如您所见,我使用调查数据并因此应用调查权重:
xtile Quintile = NetWealth [pw=surveyweight], nq(5)
然后我给出以下命令来检查我得到了什么:
tab Quintile, sum(NetWealth)
这是结果:
Means, Standard Deviations and Frequencies of DN3001 Net wealth
5 |
quantiles |
of dn3001 |
-----------+-----------+
1 |1519.4221
|43114.959
| 154
-----------+-----------+
2 | 135506.67
| 74360.816
| 179
-----------+-----------+
3 | 396712.16
| 69715.49
| 161
-----------+-----------+
4 | 669065.69
| 111102.02
| 182
-----------+-----------+
5 | 2552620.5
| 3872350.9
| 274
-----------+-----------+
Total | 957419.29
| 2323329.8
| 950
为什么每个五分位数中的家庭数量不同?特别是在最后一个五分位数?
我能想到的唯一解释是,当 Stata 使用 xtile
构造五分位数时,它从计算中排除了那些呈现 NetWealth 复制值的观察值。我在咨询Stata material.
时也有过这种印象
你怎么看?
你的问题不能完全重现,因为你没有给出一个独立的例子,但一般来说这里没有谜题。
寻求此类分箱的人通常会遇到一个小问题,因为他们的观察次数不是他们想要的基于分位数的分箱数量的倍数(意思是,精确的倍数),但在您的情况下不会咬人计算
. di 154 + 179 + 161 + 182 + 274
950
表明您有 950 个观测值,即 5 x 190。
更大的问题 - 在这里并且几乎总是 - 来自 Stata 的规则,即 不同观察中的相同值必须分配给相同的 bin。所以,关系很可能是这里的问题。
您可能有三种可能的解决方案。只有一个涉及直接编码。
接受它。
做点别的。例如,你为什么要这样做?为什么不使用原始数据?
尝试不同的边界条件。为此,只需取反变量并将该版本装箱即可。然后边界上的值将以不同的方式跳跃。
在我看来,将随机噪声添加到单独的关系中是完全站不住脚的。它是不可重现的(除了简单地使用相同的程序和相同的设置)并且它会对其他变量的相同观察值产生不同的影响。
这是一个示例,其中 #3 没有帮助,但有时会起作用:
. sysuse auto, clear
(1978 Automobile Data)
. xtile bin5 = mpg, nq(5)
. gen negmpg = -mpg
. xtile bin5_2 = negmpg, nq(5)
. tab bin5
5 quantiles |
of mpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 18 24.32 24.32
2 | 17 22.97 47.30
3 | 13 17.57 64.86
4 | 12 16.22 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
. tab bin5_2
5 quantiles |
of negmpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 19 25.68 25.68
2 | 12 16.22 41.89
3 | 16 21.62 63.51
4 | 13 17.57 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
另见 this paper
第 4 节中的一些讨论
我在文档中看不到任何暗示 xtile
会按照您暗示的方式省略观察。你没有给出支持这一点的精确报价。除非有指示,否则排除任何非缺失值是有悖常理的。
我不会在这里直接评论 pweight
s 的使用,除非使用 pweight
s 在这里可能是一个复杂的因素。
我正在使用 Stata 调查变量家庭净财富 NetWealth
)。
我想构建这个变量的五分位数并使用以下命令——如您所见,我使用调查数据并因此应用调查权重:
xtile Quintile = NetWealth [pw=surveyweight], nq(5)
然后我给出以下命令来检查我得到了什么:
tab Quintile, sum(NetWealth)
这是结果:
Means, Standard Deviations and Frequencies of DN3001 Net wealth
5 |
quantiles |
of dn3001 |
-----------+-----------+
1 |1519.4221
|43114.959
| 154
-----------+-----------+
2 | 135506.67
| 74360.816
| 179
-----------+-----------+
3 | 396712.16
| 69715.49
| 161
-----------+-----------+
4 | 669065.69
| 111102.02
| 182
-----------+-----------+
5 | 2552620.5
| 3872350.9
| 274
-----------+-----------+
Total | 957419.29
| 2323329.8
| 950
为什么每个五分位数中的家庭数量不同?特别是在最后一个五分位数?
我能想到的唯一解释是,当 Stata 使用 xtile
构造五分位数时,它从计算中排除了那些呈现 NetWealth 复制值的观察值。我在咨询Stata material.
你怎么看?
你的问题不能完全重现,因为你没有给出一个独立的例子,但一般来说这里没有谜题。
寻求此类分箱的人通常会遇到一个小问题,因为他们的观察次数不是他们想要的基于分位数的分箱数量的倍数(意思是,精确的倍数),但在您的情况下不会咬人计算
. di 154 + 179 + 161 + 182 + 274
950
表明您有 950 个观测值,即 5 x 190。
更大的问题 - 在这里并且几乎总是 - 来自 Stata 的规则,即 不同观察中的相同值必须分配给相同的 bin。所以,关系很可能是这里的问题。
您可能有三种可能的解决方案。只有一个涉及直接编码。
接受它。
做点别的。例如,你为什么要这样做?为什么不使用原始数据?
尝试不同的边界条件。为此,只需取反变量并将该版本装箱即可。然后边界上的值将以不同的方式跳跃。
在我看来,将随机噪声添加到单独的关系中是完全站不住脚的。它是不可重现的(除了简单地使用相同的程序和相同的设置)并且它会对其他变量的相同观察值产生不同的影响。
这是一个示例,其中 #3 没有帮助,但有时会起作用:
. sysuse auto, clear
(1978 Automobile Data)
. xtile bin5 = mpg, nq(5)
. gen negmpg = -mpg
. xtile bin5_2 = negmpg, nq(5)
. tab bin5
5 quantiles |
of mpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 18 24.32 24.32
2 | 17 22.97 47.30
3 | 13 17.57 64.86
4 | 12 16.22 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
. tab bin5_2
5 quantiles |
of negmpg | Freq. Percent Cum.
------------+-----------------------------------
1 | 19 25.68 25.68
2 | 12 16.22 41.89
3 | 16 21.62 63.51
4 | 13 17.57 81.08
5 | 14 18.92 100.00
------------+-----------------------------------
Total | 74 100.00
另见 this paper
第 4 节中的一些讨论我在文档中看不到任何暗示 xtile
会按照您暗示的方式省略观察。你没有给出支持这一点的精确报价。除非有指示,否则排除任何非缺失值是有悖常理的。
我不会在这里直接评论 pweight
s 的使用,除非使用 pweight
s 在这里可能是一个复杂的因素。