使用自定义函数跨多个组和子集应用
Using custom function to apply across multiple groups and subsets
我在尝试将自定义函数应用于数据框中的多个组并将其变异为原始数据时遇到问题。我正在尝试计算每行数据的抑制百分比(实验中的每个观察值都有一个值)。具有挑战性的问题是该函数需要两组不同值(阳性和阴性对照)的平均值,然后在每次计算中使用该平均值。
也就是说,实验值减去阴性对照的均值,再除以阴性对照减去阳性对照的均值。
包括 + 和 - 对照在内的每个观察都应该计算出抑制百分比,并且作为双重检查,对于每个实验(分组)
- 控制的 pct inhib 的平均值应该在 0 左右,+ 控制在 100 左右。
函数:
percent_inhibition <- function(uninhibited, inhibited, unknown){
uninhibited <- as.vector(uninhibited)
inhibited <- as.vector(inhibited)
unknown <- as.vector(unknown)
mu_u <- mean(uninhibited, na.rm = TRUE)
mu_i <- mean(inhibited, na.rm = TRUE)
percent_inhibition <- (mu_u - unknown)/(mu_u - mu_i)*100
return(percent_inhibition)
}
我有一个包含多个变量的数据框:目标、框、复制和样本类型。我能够通过对数据(下方)、(1 个目标、框和复制)进行子集化来进行计算,但无法找出将其应用于所有数据的正确方法。
subset <- data %>%
filter(target == "A", box == "1", replicate == 1)
uninhib <-
subset$value[subset$sample == "unihib"]
inhib <-
subset$value[subset$sample == "inhib"]
pct <- subset %>%
mutate(pct = percent_inhibition(uninhib, inhib, .$value))
我尝试了 group_by 和 do,以及嵌套函数,但我缺乏如何将这些函数应用于我的子集问题的知识。当涉及到子集的子集(计算均值)然后将其应用于各个值时,我被卡住了。我希望有一种优雅的方法可以在不进行所有子集化的情况下执行此操作,但我不知道该怎么做。
我试过:
inhibition <- data %>%
group_by(target, box, replicate) %>%
mutate(pct = (percent_inhibition(.$value[.$sample == "uninhib"], .$value[.$sample == "inhib"], .$value)))
但是由于 group_by 函数,出现列长度不正确的错误。
library(tidyr)
library(purrr)
library(dplyr)
data %>%
group_by(target, box, replicate) %>%
mutate(pct = {
x <- split(value, sample)
percent_inhibition(x$uninhib, x$inhib, value)
})
#> # A tibble: 10,000 x 6
#> # Groups: target, box, replicate [27]
#> target box replicate sample value pct
#> <chr> <chr> <int> <chr> <dbl> <dbl>
#> 1 A 1 3 inhib -0.836 1941.
#> 2 C 1 1 uninhib -0.221 -281.
#> 3 B 3 2 inhib -2.10 1547.
#> 4 C 1 1 uninhib -1.67 -3081.
#> 5 C 1 3 inhib -1.10 -1017.
#> 6 A 2 1 inhib -1.67 906.
#> 7 B 3 1 uninhib -0.0495 -57.3
#> 8 C 3 2 inhib 1.56 5469.
#> 9 B 3 2 uninhib -0.405 321.
#> 10 B 1 2 inhib 0.786 -3471.
#> # … with 9,990 more rows
由 reprex package (v0.2.1)
于 2019-03-25 创建
或者:
data %>%
group_by(target, box, replicate) %>%
mutate(pct = percent_inhibition(value[sample == "uninhib"],
value[sample == "inhib"], value))
与data
为:
n <- 10000L
set.seed(123) ; data <-
tibble(
target = sample(LETTERS[1:3], n, replace = TRUE),
box = sample(as.character(1:3), n, replace = TRUE),
replicate = sample(1:3, n, replace = TRUE),
sample = sample(c("inhib", "uninhib"), n, replace = TRUE),
value = rnorm(n)
)
我在尝试将自定义函数应用于数据框中的多个组并将其变异为原始数据时遇到问题。我正在尝试计算每行数据的抑制百分比(实验中的每个观察值都有一个值)。具有挑战性的问题是该函数需要两组不同值(阳性和阴性对照)的平均值,然后在每次计算中使用该平均值。
也就是说,实验值减去阴性对照的均值,再除以阴性对照减去阳性对照的均值。
包括 + 和 - 对照在内的每个观察都应该计算出抑制百分比,并且作为双重检查,对于每个实验(分组) - 控制的 pct inhib 的平均值应该在 0 左右,+ 控制在 100 左右。
函数:
percent_inhibition <- function(uninhibited, inhibited, unknown){
uninhibited <- as.vector(uninhibited)
inhibited <- as.vector(inhibited)
unknown <- as.vector(unknown)
mu_u <- mean(uninhibited, na.rm = TRUE)
mu_i <- mean(inhibited, na.rm = TRUE)
percent_inhibition <- (mu_u - unknown)/(mu_u - mu_i)*100
return(percent_inhibition)
}
我有一个包含多个变量的数据框:目标、框、复制和样本类型。我能够通过对数据(下方)、(1 个目标、框和复制)进行子集化来进行计算,但无法找出将其应用于所有数据的正确方法。
subset <- data %>%
filter(target == "A", box == "1", replicate == 1)
uninhib <-
subset$value[subset$sample == "unihib"]
inhib <-
subset$value[subset$sample == "inhib"]
pct <- subset %>%
mutate(pct = percent_inhibition(uninhib, inhib, .$value))
我尝试了 group_by 和 do,以及嵌套函数,但我缺乏如何将这些函数应用于我的子集问题的知识。当涉及到子集的子集(计算均值)然后将其应用于各个值时,我被卡住了。我希望有一种优雅的方法可以在不进行所有子集化的情况下执行此操作,但我不知道该怎么做。
我试过:
inhibition <- data %>%
group_by(target, box, replicate) %>%
mutate(pct = (percent_inhibition(.$value[.$sample == "uninhib"], .$value[.$sample == "inhib"], .$value)))
但是由于 group_by 函数,出现列长度不正确的错误。
library(tidyr)
library(purrr)
library(dplyr)
data %>%
group_by(target, box, replicate) %>%
mutate(pct = {
x <- split(value, sample)
percent_inhibition(x$uninhib, x$inhib, value)
})
#> # A tibble: 10,000 x 6
#> # Groups: target, box, replicate [27]
#> target box replicate sample value pct
#> <chr> <chr> <int> <chr> <dbl> <dbl>
#> 1 A 1 3 inhib -0.836 1941.
#> 2 C 1 1 uninhib -0.221 -281.
#> 3 B 3 2 inhib -2.10 1547.
#> 4 C 1 1 uninhib -1.67 -3081.
#> 5 C 1 3 inhib -1.10 -1017.
#> 6 A 2 1 inhib -1.67 906.
#> 7 B 3 1 uninhib -0.0495 -57.3
#> 8 C 3 2 inhib 1.56 5469.
#> 9 B 3 2 uninhib -0.405 321.
#> 10 B 1 2 inhib 0.786 -3471.
#> # … with 9,990 more rows
由 reprex package (v0.2.1)
于 2019-03-25 创建或者:
data %>%
group_by(target, box, replicate) %>%
mutate(pct = percent_inhibition(value[sample == "uninhib"],
value[sample == "inhib"], value))
与data
为:
n <- 10000L
set.seed(123) ; data <-
tibble(
target = sample(LETTERS[1:3], n, replace = TRUE),
box = sample(as.character(1:3), n, replace = TRUE),
replicate = sample(1:3, n, replace = TRUE),
sample = sample(c("inhib", "uninhib"), n, replace = TRUE),
value = rnorm(n)
)