Select 随机抽取 50% 的样本,但每对夫妇只有 1 人
Select random 50% of sample, but only 1 person per couple
本质上,我正在尝试进行分层随机抽样。我想 运行 对异性伴侣的数据进行分析。我需要 select 随机抽取 50% 的未婚女性和随机 50% 的男性。我知道如何过滤掉总样本的随机百分比,但不知道如何确保每个家庭只有一个人 selected。
我的数据是这样的:
couple person gender Q1 Q2 Q3 Q4 Q5
1 1 0 3.5 4.2 2.3 3.3 4.3
1 2 1 3.2 2.5 2.1 3.7 5.6
2 1 1 3.7 2.6 3.3 4.2 5.1
2 2 0 3.0 3.5 2.1 3.6 5.4
它是长格式的,所以每一行代表一个人,每对有两个人。
已编辑以获取更多详细信息
hhid
= 情侣
hhidpn
= 人
ragender
= 性别,其中 1 = 男性,2 = 女性
SPAQ1-8
= 自我衰老量表的第 1-8 项
[1]: https://i.stack.imgur.com/yKQ7k.png
我的建议是将夫妻随机分成两组,然后select女性一组,男性一组。
首先,我将重建您的示例数据以演示:
data list list/couple person gender (3f1) Q1 Q2 Q3 Q4 Q5 (5f2.1).
begin data
1 1 0 3.5 4.2 2.3 3.3 4.3
1 2 1 3.2 2.5 2.1 3.7 5.6
2 1 1 3.7 2.6 3.3 4.2 5.1
2 2 0 3.0 3.5 2.1 3.6 5.4
3 1 0 3.5 4.2 2.3 3.3 4.3
3 2 1 3.2 2.5 2.1 3.7 5.6
4 1 1 3.7 2.6 3.3 4.2 5.1
4 2 0 3.0 3.5 2.1 3.6 5.4
end data.
现在我们有了一个数据集,我们可以根据需要进行采样:
针对较短的流程进行了编辑 - 使用@rossum 的建议版本:
* first we give each couple a random number, and then use it to sort the couples randomly.
sort cases by couple.
compute randorder=uniform(100).
if couple=lag(couple) randorder=lag(randorder).
sort cases by randorder.
* now we create a running index for the couples, and use it to select males
or females according to odd or even index.
compute coupleNum=1.
if $casenum>1 coupleNum=lag(coupleNum)+(couple<>lag(couple)).
compute selected=(mod(coupleNum, 2)=gender).
exe.
现在您创建了 selection 变量,您可以将其与 filter
或 select
一起使用以继续分析。
编辑:
上面的代码适用于值为 0,1 的性别。对 OP 的编辑显示性别值实际上是 1,2。所以 selected
的最终计算应该以这种方式完成,而不是像上面那样:
compute selected=(mod(coupleNum, 2)+1=gender).
本质上,我正在尝试进行分层随机抽样。我想 运行 对异性伴侣的数据进行分析。我需要 select 随机抽取 50% 的未婚女性和随机 50% 的男性。我知道如何过滤掉总样本的随机百分比,但不知道如何确保每个家庭只有一个人 selected。
我的数据是这样的:
couple person gender Q1 Q2 Q3 Q4 Q5
1 1 0 3.5 4.2 2.3 3.3 4.3
1 2 1 3.2 2.5 2.1 3.7 5.6
2 1 1 3.7 2.6 3.3 4.2 5.1
2 2 0 3.0 3.5 2.1 3.6 5.4
它是长格式的,所以每一行代表一个人,每对有两个人。
已编辑以获取更多详细信息
hhid
= 情侣
hhidpn
= 人
ragender
= 性别,其中 1 = 男性,2 = 女性
SPAQ1-8
= 自我衰老量表的第 1-8 项
[1]: https://i.stack.imgur.com/yKQ7k.png
我的建议是将夫妻随机分成两组,然后select女性一组,男性一组。
首先,我将重建您的示例数据以演示:
data list list/couple person gender (3f1) Q1 Q2 Q3 Q4 Q5 (5f2.1).
begin data
1 1 0 3.5 4.2 2.3 3.3 4.3
1 2 1 3.2 2.5 2.1 3.7 5.6
2 1 1 3.7 2.6 3.3 4.2 5.1
2 2 0 3.0 3.5 2.1 3.6 5.4
3 1 0 3.5 4.2 2.3 3.3 4.3
3 2 1 3.2 2.5 2.1 3.7 5.6
4 1 1 3.7 2.6 3.3 4.2 5.1
4 2 0 3.0 3.5 2.1 3.6 5.4
end data.
现在我们有了一个数据集,我们可以根据需要进行采样:
针对较短的流程进行了编辑 - 使用@rossum 的建议版本:
* first we give each couple a random number, and then use it to sort the couples randomly.
sort cases by couple.
compute randorder=uniform(100).
if couple=lag(couple) randorder=lag(randorder).
sort cases by randorder.
* now we create a running index for the couples, and use it to select males
or females according to odd or even index.
compute coupleNum=1.
if $casenum>1 coupleNum=lag(coupleNum)+(couple<>lag(couple)).
compute selected=(mod(coupleNum, 2)=gender).
exe.
现在您创建了 selection 变量,您可以将其与 filter
或 select
一起使用以继续分析。
编辑:
上面的代码适用于值为 0,1 的性别。对 OP 的编辑显示性别值实际上是 1,2。所以 selected
的最终计算应该以这种方式完成,而不是像上面那样:
compute selected=(mod(coupleNum, 2)+1=gender).