R:使用正则表达式从多个 Excel 文件导入特定工作表
R: Use Regex to Import Specific Sheets from Multiple Excel Files
我有一组 Excel 个文件,其中有多个 sheet 不遵循标准命名约定。我想从包含关键字 'frame'.
的特定 sheet 创建单个数据框
library(tidyverse)
library(openxlsx)
# Sample Excel File 1
df1 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
data_frame2 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
list_of_datasets1 <- list("df" = df1, "date_frame" = data_frame2)
write.xlsx(list_of_datasets1, file = "writeXLSX1.xlsx")
# Sample Excel File 2
df3 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
data_frame4 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
list_of_datasets2 <- list("date_frames" = df3, "dfs" = data_frame4)
write.xlsx(list_of_datasets2, file = "writeXLSX2.xlsx")
# Create List of Excel Files
excel_file_list <- list.files(pattern = "writeXLSX\d*.xlsx", full.names = T)
我希望能够使用带有 purr
的正则表达式来执行此操作,如下所示:
df_bind <- excel_file_list %>%
map_dfr(~read_excel(.x, sheet = grepl("frame", .x)))
我发现最接近的 可以很好地处理单个文件。但是,我不太清楚如何在列表中正确提取 sheet 名称。
我们可以使用str_detect
library(readxl)
library(dplyr)
library(purrr)
excel_file_list %>%
map_dfr(~ read_excel(.x, sheet = which(str_detect(excel_sheets(.x), 'frame'))))
我有一组 Excel 个文件,其中有多个 sheet 不遵循标准命名约定。我想从包含关键字 'frame'.
的特定 sheet 创建单个数据框library(tidyverse)
library(openxlsx)
# Sample Excel File 1
df1 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
data_frame2 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
list_of_datasets1 <- list("df" = df1, "date_frame" = data_frame2)
write.xlsx(list_of_datasets1, file = "writeXLSX1.xlsx")
# Sample Excel File 2
df3 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
data_frame4 <- data.frame(replicate(10,sample(0:1,10,rep=TRUE)))
list_of_datasets2 <- list("date_frames" = df3, "dfs" = data_frame4)
write.xlsx(list_of_datasets2, file = "writeXLSX2.xlsx")
# Create List of Excel Files
excel_file_list <- list.files(pattern = "writeXLSX\d*.xlsx", full.names = T)
我希望能够使用带有 purr
的正则表达式来执行此操作,如下所示:
df_bind <- excel_file_list %>%
map_dfr(~read_excel(.x, sheet = grepl("frame", .x)))
我发现最接近的
我们可以使用str_detect
library(readxl)
library(dplyr)
library(purrr)
excel_file_list %>%
map_dfr(~ read_excel(.x, sheet = which(str_detect(excel_sheets(.x), 'frame'))))