具有不平衡观测值的长格式数据处理
Data manipulation of long format with unbalanced observations
我正在组织我的数据以使用混合模型。
数据在观察次数方面不平衡。
看起来像这样:
Id <- c("A","A","A","A", "B", "B", "B", "C", "C", "D","D","D","D","D","D")
v1 <- c(5,5,5,5,8,8,8,15,15,4,4,4,4,4,4)
v2 <- c(3,3,3,3,5,5,5,10,10,8,8,8,8,8,8)
my_data <- data.frame(Id, v1, v2)
head(my_data, n = 20)
v1 和 v2 可以看作是静态预测变量,因为它们在 ID 上具有相同的值。就观察次数而言,数据是不平衡的。
问题 A = 如何计算静态预测变量 v1 的平均值(每个 ID 的一次 v1 观察值的平均值)。
问题 B = 我如何使用 "cut numbers" 之类的东西将 v1 组织成具有 3 个级别("Low"、"Median"、"High")的新静态预测器数据集中的新列?
问题一:
mean(tapply(v1, Id, mean))
问题B:使用cut()
函数。
我正在组织我的数据以使用混合模型。
数据在观察次数方面不平衡。
看起来像这样:
Id <- c("A","A","A","A", "B", "B", "B", "C", "C", "D","D","D","D","D","D")
v1 <- c(5,5,5,5,8,8,8,15,15,4,4,4,4,4,4)
v2 <- c(3,3,3,3,5,5,5,10,10,8,8,8,8,8,8)
my_data <- data.frame(Id, v1, v2)
head(my_data, n = 20)
v1 和 v2 可以看作是静态预测变量,因为它们在 ID 上具有相同的值。就观察次数而言,数据是不平衡的。
问题 A = 如何计算静态预测变量 v1 的平均值(每个 ID 的一次 v1 观察值的平均值)。
问题 B = 我如何使用 "cut numbers" 之类的东西将 v1 组织成具有 3 个级别("Low"、"Median"、"High")的新静态预测器数据集中的新列?
问题一:
mean(tapply(v1, Id, mean))
问题B:使用cut()
函数。