从位于 R 中不同文件夹中的 Excel 个文件导入工作表
Import sheets from Excel files located in different folder in R
基本上我在两个不同的文件夹(一个是 2018 年,另一个是 2019 年)中有两个同名的 Excel 文件 "Checklist"。 Checklist 有不同的表格,每个月一张:"January"、"February" 等...当然,所有表格都有完全相同的变量。
我想将两个 Excel 文件中的所有工作表放入同一个数据框中。
现在,我可以从一个 Excel 文件中收集表格:
library(readxl)
library(tibble)
read_excel_allsheets <- function(filename, tibble = TRUE) {
sheets <- readxl::excel_sheets(filename)
x <- lapply(sheets, function(X) readxl::read_excel(filename, sheet = X))
if(!tibble) x <- lapply(x, as.data.frame)
names(x) <- sheets
x
}
mysheets <-read_excel_allsheets("C:/Users/Thiphaine/Documents/2018/Checklist.xlsx")
library(dplyr)
mysheets<-bind_rows(mysheets, .id = "column_label")
我只是不知道如何创建一个循环来遍历文件夹 2018 和 2019,以收集 Excel 文件中的所有工作表。这个想法也是在 2020 年,我将有另一个文件夹“2020”应该被包括在内……有什么想法吗?谢谢
试试这个:
library(dplyr)
allsheets <- list()
for(file in list.files(path = "PATH/TO/DCUMENTS/",
recursive = TRUE, pattern = "*.xlsx", full.names = TRUE)) {
mysheets <- read_excel_allsheets(file)
mysheets <- bind_rows(mysheets, .id = "column_label")
allsheets[[file]] <- mysheets
}
其中 PATH/TO/DOCUMENTS
对您来说可能类似于 "C:/Users/Thiphaine/Documents/
。
如果您愿意,也可以使用 tidyverse
方法对其进行矢量化。特别是因为您的所有文件都是相同的(列名)并且您希望以 data.frame
.
结尾
require(tidyverse)
df <- list.files(path = "your_path",
full.names = TRUE,
recursive = TRUE,
pattern = "*.xls") %>%
tbl_df() %>%
mutate(sheetName = map(value, readxl::excel_sheets)) %>%
unnest(sheetName) %>%
mutate(myFiles = purrr::map2(value, sheetName, function(x,y) {
readxl::read_excel(x, sheet = paste(y))})) %>%
unnest(myFiles)
基本上我在两个不同的文件夹(一个是 2018 年,另一个是 2019 年)中有两个同名的 Excel 文件 "Checklist"。 Checklist 有不同的表格,每个月一张:"January"、"February" 等...当然,所有表格都有完全相同的变量。 我想将两个 Excel 文件中的所有工作表放入同一个数据框中。 现在,我可以从一个 Excel 文件中收集表格:
library(readxl)
library(tibble)
read_excel_allsheets <- function(filename, tibble = TRUE) {
sheets <- readxl::excel_sheets(filename)
x <- lapply(sheets, function(X) readxl::read_excel(filename, sheet = X))
if(!tibble) x <- lapply(x, as.data.frame)
names(x) <- sheets
x
}
mysheets <-read_excel_allsheets("C:/Users/Thiphaine/Documents/2018/Checklist.xlsx")
library(dplyr)
mysheets<-bind_rows(mysheets, .id = "column_label")
我只是不知道如何创建一个循环来遍历文件夹 2018 和 2019,以收集 Excel 文件中的所有工作表。这个想法也是在 2020 年,我将有另一个文件夹“2020”应该被包括在内……有什么想法吗?谢谢
试试这个:
library(dplyr)
allsheets <- list()
for(file in list.files(path = "PATH/TO/DCUMENTS/",
recursive = TRUE, pattern = "*.xlsx", full.names = TRUE)) {
mysheets <- read_excel_allsheets(file)
mysheets <- bind_rows(mysheets, .id = "column_label")
allsheets[[file]] <- mysheets
}
其中 PATH/TO/DOCUMENTS
对您来说可能类似于 "C:/Users/Thiphaine/Documents/
。
如果您愿意,也可以使用 tidyverse
方法对其进行矢量化。特别是因为您的所有文件都是相同的(列名)并且您希望以 data.frame
.
require(tidyverse)
df <- list.files(path = "your_path",
full.names = TRUE,
recursive = TRUE,
pattern = "*.xls") %>%
tbl_df() %>%
mutate(sheetName = map(value, readxl::excel_sheets)) %>%
unnest(sheetName) %>%
mutate(myFiles = purrr::map2(value, sheetName, function(x,y) {
readxl::read_excel(x, sheet = paste(y))})) %>%
unnest(myFiles)