将一些行的中位数除以每组其他行的中位数

Question

group_ID <- c("a","a","a","a","a","b","b","b","b","b","b","b","b")
class <- c("p","q","q","q","q","p","p","p","q","q","q","q","q")
var1 <- c(3,1,1,1,1,3,2,1,1,2,2,4,1)
my_table <- data.frame(group_ID,class,var1)

我有以下 table.

group_ID class var1
a     p    3
a     q    1
a     q    1
a     q    1
a     q    1
b     p    3
b     p    2
b     p    1
b     q    1
b     q    2
b     q    2
b     q    4
b     q    1

我想通过将每个组的 class p 的 var1 的中值除以 q class 的 var1 的中值来创建一个新列。预期输出如下所示。

group_ID    class   var1    var1_ratio
a   p   3   3
a   q   1   3
a   q   1   3
a   q   1   3
a   q   1   3
b   p   3   1
b   p   2   1
b   p   1   1
b   q   1   1
b   q   2   1
b   q   2   1
b   q   4   1
b   q   1   1

：这个问题似乎和我的最相似，我尝试使用 group_by() 和 mutate_each() 如下，但我无法让它工作。

my_table <- my_table %>%
  group_by(group_ID,class) %>%
  mutate_each(funs(./median(.[class == "p"])), var1)

我也试过了：

谢谢！

Answer 1

我们不需要mutate_each

library(dplyr)
my_table %>% 
   # // grouped by group_ID, class
   group_by(group_ID, class) %>%
   # // create a median column
   mutate(Median= median(var1)) %>% 
   # // reset the grouping by removing class 
   group_by(group_ID) %>%
   # // divide the first element of subset of Median for each class
   mutate(var1_ratio = first(Median[class == 'p'])/first(Median[class == 'q']), 
         Median = NULL)
# A tibble: 13 x 4
# Groups:   group_ID [2]
#   group_ID class  var1 var1_ratio
#   <chr>    <chr> <dbl>      <dbl>
# 1 a        p         3          3
# 2 a        q         1          3
# 3 a        q         1          3
# 4 a        q         1          3
# 5 a        q         1          3
# 6 b        p         3          1
# 7 b        p         2          1
# 8 b        p         1          1
# 9 b        q         1          1
#10 b        q         2          1
#11 b        q         2          1
#12 b        q         4          1
#13 b        q         1          1

Answer 2

您还可以尝试创建摘要并加入原始数据：

library(tidyverse)

my_table %>% left_join(my_table %>%
                         group_by(group_ID,class) %>%
                         summarise(Median=median(var1)) %>%
                         pivot_wider(names_from = class,values_from = Median,
                                     names_prefix = 'Median.')) %>%
  mutate(Ratio=Median.p/Median.q) %>% select(-c(Median.p,Median.q))

输出：

   group_ID class var1 Ratio
1         a     p    3     3
2         a     q    1     3
3         a     q    1     3
4         a     q    1     3
5         a     q    1     3
6         b     p    3     1
7         b     p    2     1
8         b     p    1     1
9         b     q    1     1
10        b     q    2     1
11        b     q    2     1
12        b     q    4     1
13        b     q    1     1

Answer 3

这是一个基本的 R 解决方案。它使用 aggregate 两次，一次计算中位数，然后计算比率。然后，它与原始列合并以将新列值放在它们的位置。

agg <- aggregate(var1 ~ ., my_table, median)
agg <- aggregate(var1 ~ group_ID, agg, function(x) x[1]/x[2])
names(agg)[2] <- "var1_ratio"
merge(my_table, agg)

将一些行的中位数除以每组其他行的中位数

Divide median of a some rows by median of other rows for each group

r

bioinformatics

dplyr