如何使用调查通过复制权重分析美国住房调查数据
How to use survey to analyze the American Housing Survey data using replicate weights
我正在分析来自美国住房调查的数据,该调查附带重复权重以计算正确的标准误差,在 survey
的 R 中,但我想确保我正确指定了设计.
这是我的做法:
svy <- svrepdesign(data = ahs,
weight = ~WEIGHT,
repweights = "REPWEIGHT[0-9]+",
type = "Fay",
rho = 0.5,
scale = 4/160,
rscales = rep(1, 160),
mse = TRUE)
我将 rho
设置为 0.5
因为,在人口普查局发布的使用复制权重指南的第 3.1 节中,他们解释了如何使用 SAS 计算标准误差(https://www.census.gov/content/dam/Census/programs-surveys/ahs/tech-documentation/2015/Quick%20Guide%20to%20Estimating%20Variance%20Using%20Replicate%20Weights%202009%20to%20Current.pdf), they say to use the option VARMETHOD=BRR(FAY) without specifying any other options and, according to the SAS documentation (http://support.sas.com/documentation/onlinedoc/stat/142/surveymeans.pdf), 此参数的默认值为 0.5.
我将 mse
设置为 TRUE
因为,在他们为第 4 节中的标准误差给出的公式中,平方偏差之和是围绕使用完整计算的统计量估计值计算的样本权重。
最后,我将 scale
设置为 4/160
,将 rscales
设置为 rep(1, 160)
,因为在同一个公式中,偏差平方和乘以 4/160
但求和运算符中没有乘数。
然而,当我查看 Anthony Joseph Damico 关于美国住房调查 (http://asdfree.com/american-housing-survey-ahs.html) 的网页时,他这样做了:
ahs_design <-
svrepdesign(
weights = ~ wgt90geo ,
repweights = "repwgt[1-9]" ,
type = "Fay" ,
rho = ( 1 - 1 / sqrt( 4 ) ) ,
mse = TRUE ,
data = ahs_df
)
忘记权重变量的名称吧,它在 2015 年刚刚改变(大概是在他写了那个网页之后),他和我做的一样,只是他没有指定 scale
和 rscales
。根据我上面的解释和 survey
的文档,在我看来他应该像我一样指定它们,但我以前从未使用过 survey
的复制权重,所以我想确定。
P。 S. 我发现更奇怪的是,当我尝试不指定 scale
和 rscales
时,我计算的标准误差似乎与我指定时的标准误差相同。这意味着在实践中我是怎么做的可能并不重要,但是如果我指定 scale
和 rscales
,用于计算标准误差的公式应该是不同的,我仍然喜欢理解为什么它似乎不影响由 survey
.
计算的标准误差
P。 S.之二:我不明白的另一件事是,即使人口普查局说它已经使用了 Fay 的方法并建议使用 SAS 程序,这将导致 Fay 系数为 0.5
,但实际上并没有似乎是它发布的指南中给出的标准误差公式中的任何 Fay 系数。这意味着,如果我要编写自己的代码来使用该公式计算标准误差,结果可能与我使用 survey
和 rho
或 0.5
时不同人口普查局推荐的 SAS 过程来计算标准误差,这对我来说意义不大。
svrepdesign
不需要 Fay 复制权重的 scale
或 rscales
参数,因为它可以自行计算出它们。这就是知道 type
的权重的意义所在。我可能应该在您指定它们时添加警告。
公式中不需要明确的 Fay 系数。构建权重时,将抽样权重乘以 2-rho
或 rho
以获得重复权重。这一切都已经完成了。现在你只需要知道如何缩放平方残差。人口普查局公式(link 的 p6)的乘数为 4/160。那个 4 是 1/(1-rho)^2
—— Anthony Damico 的代码有反向转换,从 4
计算出 rho=0.5
。
简单的 BRR 乘数为 1/160 而不是 4/160。
我正在分析来自美国住房调查的数据,该调查附带重复权重以计算正确的标准误差,在 survey
的 R 中,但我想确保我正确指定了设计.
这是我的做法:
svy <- svrepdesign(data = ahs,
weight = ~WEIGHT,
repweights = "REPWEIGHT[0-9]+",
type = "Fay",
rho = 0.5,
scale = 4/160,
rscales = rep(1, 160),
mse = TRUE)
我将 rho
设置为 0.5
因为,在人口普查局发布的使用复制权重指南的第 3.1 节中,他们解释了如何使用 SAS 计算标准误差(https://www.census.gov/content/dam/Census/programs-surveys/ahs/tech-documentation/2015/Quick%20Guide%20to%20Estimating%20Variance%20Using%20Replicate%20Weights%202009%20to%20Current.pdf), they say to use the option VARMETHOD=BRR(FAY) without specifying any other options and, according to the SAS documentation (http://support.sas.com/documentation/onlinedoc/stat/142/surveymeans.pdf), 此参数的默认值为 0.5.
我将 mse
设置为 TRUE
因为,在他们为第 4 节中的标准误差给出的公式中,平方偏差之和是围绕使用完整计算的统计量估计值计算的样本权重。
最后,我将 scale
设置为 4/160
,将 rscales
设置为 rep(1, 160)
,因为在同一个公式中,偏差平方和乘以 4/160
但求和运算符中没有乘数。
然而,当我查看 Anthony Joseph Damico 关于美国住房调查 (http://asdfree.com/american-housing-survey-ahs.html) 的网页时,他这样做了:
ahs_design <-
svrepdesign(
weights = ~ wgt90geo ,
repweights = "repwgt[1-9]" ,
type = "Fay" ,
rho = ( 1 - 1 / sqrt( 4 ) ) ,
mse = TRUE ,
data = ahs_df
)
忘记权重变量的名称吧,它在 2015 年刚刚改变(大概是在他写了那个网页之后),他和我做的一样,只是他没有指定 scale
和 rscales
。根据我上面的解释和 survey
的文档,在我看来他应该像我一样指定它们,但我以前从未使用过 survey
的复制权重,所以我想确定。
P。 S. 我发现更奇怪的是,当我尝试不指定 scale
和 rscales
时,我计算的标准误差似乎与我指定时的标准误差相同。这意味着在实践中我是怎么做的可能并不重要,但是如果我指定 scale
和 rscales
,用于计算标准误差的公式应该是不同的,我仍然喜欢理解为什么它似乎不影响由 survey
.
P。 S.之二:我不明白的另一件事是,即使人口普查局说它已经使用了 Fay 的方法并建议使用 SAS 程序,这将导致 Fay 系数为 0.5
,但实际上并没有似乎是它发布的指南中给出的标准误差公式中的任何 Fay 系数。这意味着,如果我要编写自己的代码来使用该公式计算标准误差,结果可能与我使用 survey
和 rho
或 0.5
时不同人口普查局推荐的 SAS 过程来计算标准误差,这对我来说意义不大。
svrepdesign
不需要 Fay 复制权重的 scale
或 rscales
参数,因为它可以自行计算出它们。这就是知道 type
的权重的意义所在。我可能应该在您指定它们时添加警告。
公式中不需要明确的 Fay 系数。构建权重时,将抽样权重乘以 2-rho
或 rho
以获得重复权重。这一切都已经完成了。现在你只需要知道如何缩放平方残差。人口普查局公式(link 的 p6)的乘数为 4/160。那个 4 是 1/(1-rho)^2
—— Anthony Damico 的代码有反向转换,从 4
计算出 rho=0.5
。
简单的 BRR 乘数为 1/160 而不是 4/160。