使用文件名中的日期文本作为新列读取多个 csv 数据集
Read multiple csv datasets with the date text from file name as new column
我有多个要导入 R 的 csv 文件。
如何将多个文件读入 R 并在第一列的文件名中添加包含日期文本的列?
这里需要:
对于每个 csv 文件,在文件名中找到日期并将其添加为每个数据框的第一列,然后再绑定它们。
这是文件名中没有日期列的代码:
all <- lapply(c("file_10-16-2017.csv",
"file_10-17-2017.csv",
"file_10-18-2017.csv",
function(x){
read_csv(x, skip = 10)}) %>% bind_rows()
我希望我的最终结果看起来像这样:
Date_Pulled Week Date spot1 Site ID test
10-16-2017 10/15/17 10/16/2017 trial trial134
. . . . .
. . . . .
. . . . .
10-17-2017 10/15/17 10/16/2017 trial trial134
. . . . .
. . . . .
. . . . .
任何帮助都会很棒,谢谢!
首先,将所有要读取的文件放到一个单独的工作目录中,然后将工作目录更改为这个目录。
# 1. change wd
setwd('new_file_path')
# 2. get files from that directory
my_files <- list.files()
# 3. read in all files, skipping first 10 lines
library(readr)
dat_list <- lapply(my_files, read_csv, skip = 10)
# 4. mutate a new column, which is the name of the file
library(dplyr)
dat_list_new <- lapply(dat_list, function(x) {
mutate(x,
new_col_one = names(x))
})
# 5. port this list of data frames to the global environment
names(dat_list_new) <- my_files # set the names of the dataframes
list2env(dat_list_new,envir=.GlobalEnv)
我想出了另一种方法:
filenames <- list.files(path = ".", pattern = NULL, all.files = FALSE, full.names = FALSE, recursive = FALSE, ignore.case = FALSE)
read_csv_filename <- function(filenames){
ret <- read.csv(filenames, skip = 10)
ret$Source <- filenames #EDIT
ret
}
import.list <- ldply(filenames, read_csv_filename)
这应该可以解决问题
我有多个要导入 R 的 csv 文件。
如何将多个文件读入 R 并在第一列的文件名中添加包含日期文本的列?
这里需要:
对于每个 csv 文件,在文件名中找到日期并将其添加为每个数据框的第一列,然后再绑定它们。
这是文件名中没有日期列的代码:
all <- lapply(c("file_10-16-2017.csv",
"file_10-17-2017.csv",
"file_10-18-2017.csv",
function(x){
read_csv(x, skip = 10)}) %>% bind_rows()
我希望我的最终结果看起来像这样:
Date_Pulled Week Date spot1 Site ID test
10-16-2017 10/15/17 10/16/2017 trial trial134
. . . . .
. . . . .
. . . . .
10-17-2017 10/15/17 10/16/2017 trial trial134
. . . . .
. . . . .
. . . . .
任何帮助都会很棒,谢谢!
首先,将所有要读取的文件放到一个单独的工作目录中,然后将工作目录更改为这个目录。
# 1. change wd
setwd('new_file_path')
# 2. get files from that directory
my_files <- list.files()
# 3. read in all files, skipping first 10 lines
library(readr)
dat_list <- lapply(my_files, read_csv, skip = 10)
# 4. mutate a new column, which is the name of the file
library(dplyr)
dat_list_new <- lapply(dat_list, function(x) {
mutate(x,
new_col_one = names(x))
})
# 5. port this list of data frames to the global environment
names(dat_list_new) <- my_files # set the names of the dataframes
list2env(dat_list_new,envir=.GlobalEnv)
我想出了另一种方法:
filenames <- list.files(path = ".", pattern = NULL, all.files = FALSE, full.names = FALSE, recursive = FALSE, ignore.case = FALSE)
read_csv_filename <- function(filenames){
ret <- read.csv(filenames, skip = 10)
ret$Source <- filenames #EDIT
ret
}
import.list <- ldply(filenames, read_csv_filename)
这应该可以解决问题