具有不平衡观测值的长格式数据处理

Data manipulation of long format with unbalanced observations

我正在组织我的数据以使用混合模型。

数据在观察次数方面不平衡。

看起来像这样:

Id <- c("A","A","A","A", "B", "B", "B", "C", "C", "D","D","D","D","D","D")
v1 <- c(5,5,5,5,8,8,8,15,15,4,4,4,4,4,4)
v2 <- c(3,3,3,3,5,5,5,10,10,8,8,8,8,8,8)

my_data <- data.frame(Id, v1, v2)

head(my_data, n = 20)

v1 和 v2 可以看作是静态预测变量,因为它们在 ID 上具有相同的值。就观察次数而言,数据是不平衡的。

问题 A = 如何计算静态预测变量 v1 的平均值(每个 ID 的一次 v1 观察值的平均值)。

问题 B = 我如何使用 "cut numbers" 之类的东西将 v1 组织成具有 3 个级别("Low"、"Median"、"High")的新静态预测器数据集中的新列?

问题一:

mean(tapply(v1, Id, mean))

问题B:使用cut()函数。