绑定包含嵌套 data.frames 列的 r data.frames

Bind r data.frames that contain column(s) of nested data.frames

使用 jsonlite 导入多个 .json 文件后,我正在寻找绑定结果 data.frames 的方法,其中包含一个或多个本身嵌套的列 data.frames . 我遇到了以下 post https://r.789695.n4.nabble.com/data-frame-with-nested-data-frame-td3162660.html,这有助于突出问题。

## Create nested data.frames
dat1 <- data.frame(x = 1)
dat1$y <- data.frame(y1 = "a", y2 = "A", stringsAsFactors = FALSE)

dat2 <- data.frame(x = 2)
dat2$y <- data.frame(y1 = "b", stringsAsFactors = FALSE)

None 这些作品

rbind(dat1, dat2)
dplyr::bind_rows(dat1, dat2)
data.table::rbindlist(list(dat1, dat2))

我发现了一些解决方法,我将在下面 post 以防它们帮助其他人。

首先将数据展平(对于基础 rbind data.frames 需要具有相同的列名)

dplyr::bind_rows(
  jsonlite::flatten(dat1),
  jsonlite::flatten(dat2)
)

在绑定之前将 data.frames 放入列表中(所有方法现在都有效)

dat1$y <- list(dat1$y)
dat2$y <- list(dat2$y)

rbind(dat1, dat2)
dplyr::bind_rows(dat1, dat2)
data.table::rbindlist(list(dat1, dat2))

使用tidyverse嵌套data.frames

tib1 <- tidyr::nest(dat1, y = c(y))
tib2 <- tidyr::nest(dat2, y = c(y))
tib3 <- dplyr::bind_rows(tib1, tib2)
tidyr::unnest(tib3, c(y))

这也可以在没有额外软件包的情况下完成。数据帧需要在 list 中部分 unlisted,然后使用 Reduce.

merged
Reduce(function(...) merge(..., all=TRUE), Map(unlist, list(dat1, dat2), recursive=FALSE))
#   x y.y1 y.y2
# 1 1    a    A
# 2 2    b <NA>

这也适用于两个以上的嵌套数据框。

dat3 <- data.frame(x=2, y=data.frame(y1="c", y2="C", z="CC", stringsAsFactors=FALSE))

Reduce(function(...) merge(..., all=TRUE), Map(unlist, list(dat1, dat2, dat3), recursive=FALSE))
#   x y.y1 y.y2  y.z
# 1 1    a    A <NA>
# 2 2    b <NA> <NA>
# 3 2    c    C   CC

数据

dat1 <- structure(list(x = 1, y = structure(list(y1 = "a", y2 = "A"), class = "data.frame", 
                                    row.names = c(NA, -1L))), row.names = c(NA, -1L), 
          class = "data.frame")

dat2 <- structure(list(x = 2, y = structure(list(y1 = "b"), class = "data.frame", 
                                    row.names = c(NA, -1L))), row.names = c(NA, -1L), 
          class = "data.frame")