R 部分字符串匹配和 returns 匹配行中的值(如 excel 中的 "match")
R Partial string match and returns a value from the matched row (like "match" in excel)
想问一下R中的excel中是否有类似"match"的函数
例如,如果我有一个包含人们受教育程度的数据集:
> edu
chr [1:4] "Bachelor" "NA" "Master" "Superieur"
以及 ISCED 的国际地图系统:
> ISCED
Main education program English translation Code
Brevet d'enseignement supérieur (BES) certificate of higher education 5
bachelier de transition Bachelor 6
Bachelor Bachelor 6
Master Master 7
我想知道是否有一个函数可以帮助从 ISCED 数据帧第一列的向量 edu 中部分识别字符串,然后如果匹配,代码 (5、6 或 7) 将被退回。
我知道有像“%like%”或 "grepl" 这样的函数,但我正在寻找可以浏览向量 edu 的所有值的东西,而不仅仅是每次定义的一个特定字符串。
有没有人有任何见解?或者你们会建议使用带有 "grepl" 的循环吗?
谢谢!
一种方法是使用 grep
。
使用 paste0
创建一个字符串向量,并在与第一列 (Main_education_group
) 匹配的任何位置获取索引。使用该索引从数据框中获取相应的 Code
。
ISCED$Code[grep(paste0(edu, collapse = "|"), ISCED$Main_education_program)]
#[1] 6 7
编辑
为了根据 OP 的要求获得更新的输出,我们可以使用 sapply
并遍历 edu
中的所有元素并检查它是否存在于 Main_education_program
[=22 中=]
sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program)) > 0)
ISCED$Code[grep(x, ISCED$Main_education_program)] else NA)
哪个returns
# Bachelor NA Master Superieur
# 6 NA 7 NA
如果我们需要它而不需要名称,我们可以将其包装在 unname
unname(sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program))>0)
ISCED$Code[grep(x, ISCED$Main_education_program)] else NA ))
#[1] 6 NA 7 NA
想问一下R中的excel中是否有类似"match"的函数
例如,如果我有一个包含人们受教育程度的数据集:
> edu
chr [1:4] "Bachelor" "NA" "Master" "Superieur"
以及 ISCED 的国际地图系统:
> ISCED
Main education program English translation Code
Brevet d'enseignement supérieur (BES) certificate of higher education 5
bachelier de transition Bachelor 6
Bachelor Bachelor 6
Master Master 7
我想知道是否有一个函数可以帮助从 ISCED 数据帧第一列的向量 edu 中部分识别字符串,然后如果匹配,代码 (5、6 或 7) 将被退回。
我知道有像“%like%”或 "grepl" 这样的函数,但我正在寻找可以浏览向量 edu 的所有值的东西,而不仅仅是每次定义的一个特定字符串。
有没有人有任何见解?或者你们会建议使用带有 "grepl" 的循环吗?
谢谢!
一种方法是使用 grep
。
使用 paste0
创建一个字符串向量,并在与第一列 (Main_education_group
) 匹配的任何位置获取索引。使用该索引从数据框中获取相应的 Code
。
ISCED$Code[grep(paste0(edu, collapse = "|"), ISCED$Main_education_program)]
#[1] 6 7
编辑
为了根据 OP 的要求获得更新的输出,我们可以使用 sapply
并遍历 edu
中的所有元素并检查它是否存在于 Main_education_program
[=22 中=]
sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program)) > 0)
ISCED$Code[grep(x, ISCED$Main_education_program)] else NA)
哪个returns
# Bachelor NA Master Superieur
# 6 NA 7 NA
如果我们需要它而不需要名称,我们可以将其包装在 unname
unname(sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program))>0)
ISCED$Code[grep(x, ISCED$Main_education_program)] else NA ))
#[1] 6 NA 7 NA