向目录中的文件名添加新字段 - R
Add New Field to File Names in Directory - R
我正在使用 R 中的 EDGAR 包从 SEC 网站上取下 10-Ks。幸运的是,文本文件具有一致的文件命名约定:CIK 编号(这是一个唯一的备案 ID)_File type_Date.
最终我想按 SIC/industry 组来分析这些,所以我认为最好的方法是将 SIC 行业代码添加到此文件名规则中。
我在下面附上了我想做的事情的图片。它有点像数据库连接,只是我的文件名将采用新字段。不知道该怎么做,我对 R 和文件脚本还很陌生。
我假设您有一个包含 filenames
列的 data.frame。 (或包含所有文件名的向量)见下面的代码:
# A data.frame with a character column 'filenames'
df$CIK <- sapply(df$filenames, FUN = function(x) {unlist(strsplit(x, split = "_"))[1]})
df$CIK <- as.character(df$CIK)
现在,让我们假设您有另一个包含两列的 data.frame:CIK
和 SIC
。
# A data.frame with two character columns: 'CIK' and 'SIC'
# df2.
#
# We add another column to the first data.frame: 'new_filenames'
df$new_filename <- sapply(1:nrow(df), FUN = function(idx, CIK, filenames, df2) {
SIC <- df2$SIC[which(df2$CIK == CIK[idx])]
new_filename <- as.character(paste(SIC, "_", filenames[idx], sep = ""))
new_filenames
}, CIK = df$CIK, filenames = df$filenames, df2 = df2)
# Now the new filenames are available in df$new_filenames
View(df)
我正在使用 R 中的 EDGAR 包从 SEC 网站上取下 10-Ks。幸运的是,文本文件具有一致的文件命名约定:CIK 编号(这是一个唯一的备案 ID)_File type_Date.
最终我想按 SIC/industry 组来分析这些,所以我认为最好的方法是将 SIC 行业代码添加到此文件名规则中。
我在下面附上了我想做的事情的图片。它有点像数据库连接,只是我的文件名将采用新字段。不知道该怎么做,我对 R 和文件脚本还很陌生。
我假设您有一个包含 filenames
列的 data.frame。 (或包含所有文件名的向量)见下面的代码:
# A data.frame with a character column 'filenames'
df$CIK <- sapply(df$filenames, FUN = function(x) {unlist(strsplit(x, split = "_"))[1]})
df$CIK <- as.character(df$CIK)
现在,让我们假设您有另一个包含两列的 data.frame:CIK
和 SIC
。
# A data.frame with two character columns: 'CIK' and 'SIC'
# df2.
#
# We add another column to the first data.frame: 'new_filenames'
df$new_filename <- sapply(1:nrow(df), FUN = function(idx, CIK, filenames, df2) {
SIC <- df2$SIC[which(df2$CIK == CIK[idx])]
new_filename <- as.character(paste(SIC, "_", filenames[idx], sep = ""))
new_filenames
}, CIK = df$CIK, filenames = df$filenames, df2 = df2)
# Now the new filenames are available in df$new_filenames
View(df)