如果在 data.table 中满足条件，则将值分配给变量

Question

我有一个包含以下变量的大数据集

student_ID=c(rep("1001",8),rep("1002",3),rep("1003",11))
grades=c(NA,rep(40,2),50,60,90, 5,NA,51, rep(47,5),rep(70,5),rep(42,3))
Year=c(rep(2011,4),rep(2012,4),2011,2012,2013,rep(2011,4),rep(2012,3),rep(2013,4))
data<-data.table(student_ID,grades,Year)
setkey(data, student_ID)

我需要创建两个新变量。一个是学生的平均成绩。一个用于任何给定年份的平均成绩是否 <50（如果是则为 1，如果不是则为 0）。

一旦完成，我将查看学生和年级的子集。

Answer 1

为了创建按 'student_ID' 分组的两个列，我们需要将输出（:=）分配给新的列名称（mean(grades) 和二进制输出）。

data[, c('MeanGrade', 'MeanGradelessthan50') :={tmp <- mean(grades, na.rm=TRUE)
                                  list(tmp, +(tmp < 50))}, by = student_ID]

如果我们需要总结，而不是赋值，使用list

data[, {tmp <- mean(grades, na.rm=TRUE)
     list(MeanGrade=tmp, MeanGradelessthan50 = +(tmp < 50))}, by = .(student_ID, Year)]

如果在 data.table 中满足条件，则将值分配给变量

Allocating value to variable if a condition is met in data.table

conditional

r

mean

data.table