数据框:对某些变量进行平均,忽略但保留其他变量

Data Frame: mean over certain variables, ignore but keep others

我是第一次用 R 分析我的数据,这有点挑战。我有一个数据框,我的数据如下所示:

head(data)
      subject group age trial cond acc  rt
    1   S1     2     1     1   1    1   5045
    2   S1     2     1     2   2    1   8034
    3   S1     2     1     3   1    1   6236
    4   S1     2     1     4   2    1   8087
    5   S1     2     1     5   3    0   8756
    6   S1     2     1     6   1    1   6619

我想计算 rt 的每个条件下每个主题的均值和标准差,以及 acc 的每个条件下每个主题的总和。所有其他变量应保持不变(组和年龄是特定于主题的,可以忽略试验)。

我尝试过使用聚合,但这似乎有点复杂,因为我必须分几步完成并重新添加信息...

如果有任何帮助,我将不胜感激 =)

编辑:我意识到我没有说清楚。我希望忽略试验,并以每个受试者每个条件一行结束:

head(data_new)
      subject group age cond rt_mean  rt_sd    acc_sum
    1   S1     2     1  1    7581     100      5
    2   S2     2     1  2    8034     150      4

抱歉造成混淆!

如果您想计算条件 1 下受试者 S1 的 rt 平均值,您可以使用 mean(data[data$subject == "S1" & data$cond == 1, 7])

我希望这能让您了解如何过滤您的价值观。

如果您不介意使用 data.table 软件包:

library(data.table)
data <- data.table(data)
data[, ':=' (rt_mean = mean(rt), rt_sd = sd(rt), acc_sum = sum(acc)), by = .(subject, cond)]
data

   subject group age trial cond acc   rt  rt_mean     rt_sd acc_sum
1:      S1     2   1     1    1   1 5045 5966.667 820.83758       3
2:      S1     2   1     2    2   1 8034 8060.500  37.47666       2
3:      S1     2   1     3    1   1 6236 5966.667 820.83758       3
4:      S1     2   1     4    2   1 8087 8060.500  37.47666       2
5:      S1     2   1     5    3   0 8756 8756.000        NA       0
6:      S1     2   1     6    1   1 6619 5966.667 820.83758       3

编辑:

如果你想摆脱一些变量和重复的行,你只需要一个小的修改 - 删除 := 赋值运算符(而不是添加新的列,它现在会创建一个新的 data.table), 添加你想保留的变量并使用unique函数:

unique(dt[, .(group, age, rt_mean = mean(rt), rt_sd = sd(rt), acc_sum = sum(acc)), by = .(subject, cond)])
   subject cond group age  rt_mean     rt_sd acc_sum
1:      S1    1     2   1 5966.667 820.83758       3
2:      S1    2     2   1 8060.500  37.47666       2
3:      S1    3     2   1 8756.000        NA       0

如果您还想删除具有缺失值的行,请使用 na.omit 函数。

软件包 dplyr 是为此制作的:

library(dplyr)
d %>% 
  group_by(subject, cond) %>% # we group by the two values
  summarise(
    mean_rt = mean(rt, na.rm=T),
    sd_rt = sd(rt, na.rm=T),
    sum_acc = sum(acc, na.rm=T) # here we apply each function to summarise values
  )


# A tibble: 3 x 5
# Groups:   subject [?]
  subject  cond mean_rt sd_rt sum_acc
  <fct>   <int>   <dbl> <dbl>   <int>
1 S1          1   5967. 821.        3
2 S1          2   8060.  37.5       2
3 S1          3   8756   NA         0
# NA for the last sd_rt is because you can't have 
# sd for a single obs.

基本上,您需要 group_by 您需要用作分组的列(一个或多个),然后在 summarise 中,应用您需要的每个函数(meansd, sum, ecc) 到每个变量 (rt, acc, ecc).

如果要保留所有变量,请将 summarise 更改为 mutate

d %>% 
  select(-trial) %>% # use select with -var_name to eliminate columns 
  group_by(subject, cond) %>% 
  mutate(
    mean_rt = mean(rt, na.rm=T),
    sd_rt = sd(rt, na.rm=T),
    sum_acc = sum(acc, na.rm=T)
  ) %>% 
  ungroup()
# A tibble: 6 x 9
subject group   age  cond   acc    rt mean_rt sd_rt sum_acc
<fct>   <int> <int> <int> <int> <int>   <dbl> <dbl>   <int>
1 S1          2     1     1     1  5045   5967. 821.        3
2 S1          2     1     2     1  8034   8060.  37.5       2
3 S1          2     1     1     1  6236   5967. 821.        3
4 S1          2     1     2     1  8087   8060.  37.5       2
5 S1          2     1     3     0  8756   8756   NA         0
6 S1          2     1     1     1  6619   5967. 821.        3

根据操作请求更新,也许这就是您需要的:

d %>% 
  group_by(subject, cond, group, age) %>% 
  summarise(
    mean_rt = mean(rt, na.rm=T),
    sd_rt = sd(rt, na.rm=T),
    sum_acc = sum(acc, na.rm=T)
  ) 
# A tibble: 3 x 7
# Groups:   subject, cond, group [?]
subject  cond group   age mean_rt sd_rt sum_acc
<fct>   <int> <int> <int>   <dbl> <dbl>   <int>
1 S1          1     2     1   5967. 821.        3
2 S1          2     2     1   8060.  37.5       2
3 S1          3     2     1   8756   NA         0

使用的数据:

tt <- "subject group age trial cond acc  rt
S1     2     1     1   1    1   5045
S1     2     1     2   2    1   8034
S1     2     1     3   1    1   6236
S1     2     1     4   2    1   8087
S1     2     1     5   3    0   8756
S1     2     1     6   1    1   6619"

d <- read.table(text=tt, header=T)