从非常大的数据集中选择健康对照

choosing healthy control from a very large dataset

我想运行 进行未配对的 t 检验。我有一个包含 500,000 名参与者的非常大的数据集,但只有 21 名参与者患有某种疾病。我怎样才能从这个大数据集中选择我的健康对照?

任何想法都会有所帮助。 我正在使用 R 进行分析

您需要获得一个与您的控制样本大小相同的随机样本,即大小为 21 的随机样本。sample 函数将帮助您。此外,您可能想要复制相同的男女比例。例如,如果有 10 名男性和 11 名女性,那么您必须根据性别抽取两名患者。

总之最好是用sample从大样本的健康人中随机复制出你这21个病人的特征。