在 R 中的数据帧列表中添加 ID 列

Adding an ID column in a list of dataframes in R

我有一个要合并在一起的 XML 文件列表,但我想弄清楚如何根据文件名向每个数据框添加 "id" 列。


# BUILD DATAFRAME LIST
list_filenames <- list.files(pattern = ".xml$")

df_list <- lapply(list_filenames, function(f) {

  list_ids <- as.list(list_filenames)

  doc  <- xmlParse(f, useInternalNodes = TRUE)
  doc2 <- xmlToDataFrame(doc, nodes = getNodeSet(doc, "//Event"))
  mapply(cbind, doc2, "id" = list_ids, SIMPLIFY = F)  # Code that kind of works

  })

final_df <- do.call(rbind, df_list)

我希望得到看起来像这样的东西:

ex_df <- cbind(x = c(3, 2, 10, 12),
               y = c("a", "b", "c", "d"),
               id = c("file_name_1", "file_name_1", "file_name_2", "file_name_2")) %>% 
  as.data.frame()

> ex_df
   x y          id
1  3 a file_name_1
2  2 b file_name_1
3 10 c file_name_2
4 12 d file_name_2

我们可以用Map

nm1 <- sub("\.xml$", "", list_filenames)
out <- do.call(rbind, Map(cbind, df_list, id = nm1))

在 OP 的代码中,我们遍历 list_filenames 然后在第二行中,使用

中的全套 list_filenames
as.list(list_filenames)

相反,它只是 'f' 即

df_list <- lapply(list_filenames, function(f) {

  list_id <- sub("\.xml$", "", f) #####

  doc  <- xmlParse(f, useInternalNodes = TRUE)
  doc2 <- xmlToDataFrame(doc, nodes = getNodeSet(doc, "//Event"))
  doc2$id = list_id
  doc2

  })

然后,我们可以 rbind `列表元素

 do.call(rbind, df_list)