map + pmap,找不到变量
map + pmap, cannot find variables
我正在尝试使用 dplyr 和 purrr 整理模拟研究的结果。我的结果保存为数据框列表,其中包含来自几种不同分类算法的结果,我正在尝试使用 purrr 和 dplyr 来总结这些结果。
我正在计算
- 分配给每个集群的对象数量
- 集群中实际属于集群的对象数
- 使用 3 种不同算法 (KEEP1 - KEEP3) 的真阳性、假阳性、假阴性和真阴性的数量
- 对于其中的 2 个算法,我可以访问在集群中的概率,因此我可以将其与 alpha 的替代选择进行比较 - 因此我可以使用不同的 alpha 选择来计算真阳性等。
我发现了这个:https://github.com/tidyverse/dplyr/issues/3101,我成功地在列表的单个元素上使用它来获得我想要的东西:
f <- function(.x, .y) {
sum(.x & .y)
}
actions <- list(
.vars = lst(
c('correct'),
c('KEEP1', 'KEEP2', 'KEEP3'),
c('pval1', 'pval2')
),
.funs = lst(
funs(Nk = length, N_correct = sum),
funs(
TP1 = f(., .y = correct),
FN1 = f(!(.), .y = correct),
TN1 = f(!(.), .y = !(correct)),
FP1 = f(., .y = !(correct))
),
funs(
TP2 = f((. < alpha0) , .y = correct),
FN2 = f(!(. < alpha0), .y = correct),
TN2 = f(!(. < alpha0), .y = !(correct)),
FP2 = f((. < alpha0), .y = !(correct))
)
)
)
reproducible_data <- replicate(2,
data_frame(
k = factor(rep(1:10, each = 20)), # group/category
correct = sample(x = c(TRUE, FALSE), 10 * 20, replace = TRUE, prob = c(.8, .2)),
pval1 = rbeta(10 * 20, 1, 10),
pval2 = rbeta(10 * 20, 1, 10),
KEEP1 = pval1 < 0.05,
KEEP2 = pval2 < 0.05,
KEEP3 = runif(10 * 20) > .2,
alpha0 = 0.05,
alpha = 0.05 / 20 # divided by no. of objects in each group (k)
),
simplify = FALSE)
# works
df1 <- reproducible_data[[1]]
pmap(actions, ~df1 %>% group_by(k) %>% summarize_at(.x, .y)) %>%
reduce(inner_join,by = 'k')
现在,我想使用地图对整个列表执行此操作。但是,我无法再访问变量 "correct"(它还没有达到看不到 alpha 或 alpha0 的程度,但可能会出现相同的问题)。我仍在学习 dplyr/purrr,但我的试验并未证明有用。
# does not work
out_summary <- map(
reproducible_data,
pmap(actions, ~ as_tibble(.) %>% group_by("k") %>% summarize_at(.x, .y)) %>%
reduce(inner_join,by = 'k')
)
# this doesn't either
out_summary <- map(
reproducible_data,
pmap(actions, ~ as_tibble(.) %>% group_by("k") %>% summarize_at(.x, .y, alpha = alpha, alpha0 = alpha0, correct = correct)) %>%
reduce(inner_join,by = 'k')
)
在地图中,我没有在 $group_by(k)$ 中看到变量 'k',除非它被引用 $group_by('k')$,但是当我刚刚使用 pmap 时不需要引用它。我已经尝试了各种方法来将正确的变量传递给这些函数,但我仍在学习 dplyr 和 purrr,还没有成功。
请注意 - 实际数据存储为常规数据框,因此我需要在 pmap 函数中使用 $as_tibble()$。当我在这个例子中删除它时,我 运行 遇到了一些不同的错误,所以我选择将它添加回来,这样我会遇到同样的问题。谢谢!
试试这个
map(
reproducible_data,
function(df1) {
pmap(actions, ~ df1 %>%
as_tibble() %>%
group_by(k) %>%
summarize_at(.x, .y)) %>%
reduce(inner_join, by = "k")
}
)
我认为在同时使用 map
和 pmap
时,您的论点可能会混淆。我使用 map
的 function
语法来定义 df1
来尝试解决这个问题。其余部分看起来还不错(虽然我切换到 pmap_df
到 return 一个数据框(没有它,列表的结构很难看, pmap_df
是让它变得漂亮的最简单方法。Lmk如果不是预期的输出。
还有 group_by("k")
与 group_by(k)
的问题
另外:写group_by("k")
实际上创建了一个变量"k"并用字符"k"填充它,然后用它来分组。这将使您的代码达到 运行,但它不会执行您喜欢的操作。有时,这种问题实际上是因为一两行之前发生的错误(或者,dplyr
,一两行之前)。在这种情况下,map
没有在您需要的地方传递 df1
。
我正在尝试使用 dplyr 和 purrr 整理模拟研究的结果。我的结果保存为数据框列表,其中包含来自几种不同分类算法的结果,我正在尝试使用 purrr 和 dplyr 来总结这些结果。
我正在计算 - 分配给每个集群的对象数量 - 集群中实际属于集群的对象数 - 使用 3 种不同算法 (KEEP1 - KEEP3) 的真阳性、假阳性、假阴性和真阴性的数量 - 对于其中的 2 个算法,我可以访问在集群中的概率,因此我可以将其与 alpha 的替代选择进行比较 - 因此我可以使用不同的 alpha 选择来计算真阳性等。
我发现了这个:https://github.com/tidyverse/dplyr/issues/3101,我成功地在列表的单个元素上使用它来获得我想要的东西:
f <- function(.x, .y) {
sum(.x & .y)
}
actions <- list(
.vars = lst(
c('correct'),
c('KEEP1', 'KEEP2', 'KEEP3'),
c('pval1', 'pval2')
),
.funs = lst(
funs(Nk = length, N_correct = sum),
funs(
TP1 = f(., .y = correct),
FN1 = f(!(.), .y = correct),
TN1 = f(!(.), .y = !(correct)),
FP1 = f(., .y = !(correct))
),
funs(
TP2 = f((. < alpha0) , .y = correct),
FN2 = f(!(. < alpha0), .y = correct),
TN2 = f(!(. < alpha0), .y = !(correct)),
FP2 = f((. < alpha0), .y = !(correct))
)
)
)
reproducible_data <- replicate(2,
data_frame(
k = factor(rep(1:10, each = 20)), # group/category
correct = sample(x = c(TRUE, FALSE), 10 * 20, replace = TRUE, prob = c(.8, .2)),
pval1 = rbeta(10 * 20, 1, 10),
pval2 = rbeta(10 * 20, 1, 10),
KEEP1 = pval1 < 0.05,
KEEP2 = pval2 < 0.05,
KEEP3 = runif(10 * 20) > .2,
alpha0 = 0.05,
alpha = 0.05 / 20 # divided by no. of objects in each group (k)
),
simplify = FALSE)
# works
df1 <- reproducible_data[[1]]
pmap(actions, ~df1 %>% group_by(k) %>% summarize_at(.x, .y)) %>%
reduce(inner_join,by = 'k')
现在,我想使用地图对整个列表执行此操作。但是,我无法再访问变量 "correct"(它还没有达到看不到 alpha 或 alpha0 的程度,但可能会出现相同的问题)。我仍在学习 dplyr/purrr,但我的试验并未证明有用。
# does not work
out_summary <- map(
reproducible_data,
pmap(actions, ~ as_tibble(.) %>% group_by("k") %>% summarize_at(.x, .y)) %>%
reduce(inner_join,by = 'k')
)
# this doesn't either
out_summary <- map(
reproducible_data,
pmap(actions, ~ as_tibble(.) %>% group_by("k") %>% summarize_at(.x, .y, alpha = alpha, alpha0 = alpha0, correct = correct)) %>%
reduce(inner_join,by = 'k')
)
在地图中,我没有在 $group_by(k)$ 中看到变量 'k',除非它被引用 $group_by('k')$,但是当我刚刚使用 pmap 时不需要引用它。我已经尝试了各种方法来将正确的变量传递给这些函数,但我仍在学习 dplyr 和 purrr,还没有成功。
请注意 - 实际数据存储为常规数据框,因此我需要在 pmap 函数中使用 $as_tibble()$。当我在这个例子中删除它时,我 运行 遇到了一些不同的错误,所以我选择将它添加回来,这样我会遇到同样的问题。谢谢!
试试这个
map(
reproducible_data,
function(df1) {
pmap(actions, ~ df1 %>%
as_tibble() %>%
group_by(k) %>%
summarize_at(.x, .y)) %>%
reduce(inner_join, by = "k")
}
)
我认为在同时使用 map
和 pmap
时,您的论点可能会混淆。我使用 map
的 function
语法来定义 df1
来尝试解决这个问题。其余部分看起来还不错(虽然我切换到 pmap_df
到 return 一个数据框(没有它,列表的结构很难看, pmap_df
是让它变得漂亮的最简单方法。Lmk如果不是预期的输出。
还有 group_by("k")
与 group_by(k)
的问题
另外:写group_by("k")
实际上创建了一个变量"k"并用字符"k"填充它,然后用它来分组。这将使您的代码达到 运行,但它不会执行您喜欢的操作。有时,这种问题实际上是因为一两行之前发生的错误(或者,dplyr
,一两行之前)。在这种情况下,map
没有在您需要的地方传递 df1
。