应该如何按数据帧上的行应用函数以在 r 中生成新的或扩展的数据帧

How should a function be applied by row on a dataframe to generate a new or expanded dataframe in r

我正在尝试扩展现有的数据集,目前看起来像这样:

df <- tibble(
        site = letters[1:3],
        years = rep(4, 3),
        tr = c(3, 6, 4)
)

tr 是每个 site/year 组合的重复总数。我只想添加重复项,然后添加每个重复项的响应变量。对于使用以下函数的单个 site/year 组合,这很容易:

        f <- function(site=NULL, years=NULL, t=NULL){
                df <- tibble(
                        site = rep(site, each = t, times= years),
                        tr = rep(1:t, times = years),
                        year = rep(1:years, each = t)
                        )
                df 
        }

# For one site:
f(site='a',  years=4, t=3)

# Producing this:
# # A tibble: 12 x 3
# site     tr  year
# <chr> <int> <int>
# 1 a         1     1
# 2 a         2     1
# 3 a         3     1
# 4 a         1     2
# 5 a         2     2
# 6 a         3     2
# 7 a         1     3
# 8 a         2     3
# 9 a         3     3
# 10 a         1     4
# 11 a         2     4
# 12 a         3     4

如何将函数应用于输入数据帧的每一行以生成最终数据帧? base r 中的一个 apply 函数或 purrr 包中的 pmap_df() 看起来很理想,但由于不熟悉这些函数的工作原理,我所有的努力都只产生了错误。

如果我们想应用相同的功能,使用pmap

library(purrr)
pmap_dfr(df, ~ f(..1, ..2, ..3))
# A tibble: 52 x 3
#   site     tr  year
# * <chr> <int> <int>
# 1 a         1     1
# 2 a         2     1
# 3 a         3     1
# 4 a         1     2
# 5 a         2     2
# 6 a         3     2
# 7 a         1     3
# 8 a         2     3
# 9 a         3     3
#10 a         1     4
# … with 42 more rows

另一个选项是 condense 来自 dplyr

的开发版本
library(tidyr)
df %>%
      group_by(rn = row_number()) %>% 
      condense(out = f(site, years, tr)) %>% 
      unnest(c(out))

或者在base R中,我们也可以使用do.callMap

do.call(rbind, do.call(Map, c(f, unname(as.data.frame(df)))))
do.call(rbind, lapply(split(df, df$site), function(x){
    with(x, data.frame(site,
               years = rep(sequence(years), each = tr),
               tr = rep(sequence(tr), years)))
}))

在基础 R 中,你可以这样做:

do.call(rbind,do.call(Vectorize(f,SIMPLIFY = FALSE),unname(df)))
# A tibble: 52 x 3
   site     tr  year
 * <chr> <int> <int>
 1 a         1     1
 2 a         2     1
 3 a         3     1
 4 a         1     2
 5 a         2     2
 6 a         3     2
 7 a         1     3
 8 a         2     3
 9 a         3     3
10 a         1     4
# ... with 42 more rows

我们可以使用 Mapf 应用于 siteyearstr 的每个值。

do.call(rbind, Map(f, df$site, df$years, df$tr))

# A tibble: 52 x 3
#   site     tr  year
# * <chr> <int> <int>
# 1 a         1     1
# 2 a         2     1
# 3 a         3     1
# 4 a         1     2
# 5 a         2     2
# 6 a         3     2
# 7 a         1     3
# 8 a         2     3
# 9 a         3     3
#10 a         1     4
# … with 42 more rows

Akrun 的回答对我来说效果很好,所以我对其进行了修改,使应用于数据帧每一行的函数更加明确:


        df1 <- pmap_df(df, function(site, years, tr){
            site = rep(site, each = tr, times=years)
            year = rep(1:years, each = tr)
            tr = rep(1:tr, times=years)
          return(tibble(site, year, tr))
          })