R:模拟两个分类变量独立的总体

R: simulating a population where two categorical variables are independent

背景

出于教学目的,我使用模拟(主要在 R 中)来帮助学生(在社会科学领域......没有数学或统计背景)掌握一些统计主题背后的一些“困难”concepts/ideas。我打算讲授关于独立性的卡方检验,我准备了一个小的 2x2 意外事件 table 交叉制表 GENDER(两个级别:M 和 F)与 POLITICAL AFFILIATION(两个级别:PartyA,PartyB ).在这个玩具数据集中,存在显着的依赖性。

我心中的目标

为了帮助同学们理解原假设下卡方统计量的抽样分布,我想模拟一个上述两个变量独立[=28的总体=].我想这样做是为了:(1)我可以随机抽取一个随机样本,对两个变量进行交叉制表,并表明卡方检验变得不显着,并且(2)我可以随机抽取 B样本,计算卡方统计量 B 次,并绘制这些 B 卡方值的频率分布直方图(这应该代表卡方在零假设下的抽样分布)。

我需要帮助的地方

我想不出一种方法来模拟这 2 个分类变量相互独立的总体。理想情况下,我想提出一个包含许多行和两列的数据框:每一行代表一个观察(在我们的例子中是一个个体),而每一列将存储(对于每个观察)每个分类变量的水平正在分析(即性别和政治派别)。

您可以使用 sample 并将 replace = 参数设置为 TRUE,并使用 data.frame:

将新向量组合成变量
dat <- data.frame(gender = sample(c("F", "M"), size = 1000, replace = TRUE),
                  party = sample(c("Party A", "Party B"), size = 1000, replace = TRUE))

因为您是分别生成这两个变量,所以它们不会相互关联。