R 部分字符串匹配和 returns 匹配行中的值(如 excel 中的 "match")

R Partial string match and returns a value from the matched row (like "match" in excel)

想问一下R中的excel中是否有类似"match"的函数

例如,如果我有一个包含人们受教育程度的数据集:

> edu
chr [1:4] "Bachelor" "NA" "Master" "Superieur" 

以及 ISCED 的国际地图系统:

> ISCED
 Main education program                      English translation                   Code
 Brevet d'enseignement supérieur (BES)       certificate of higher education        5
 bachelier de transition                     Bachelor                               6
 Bachelor                                    Bachelor                               6
 Master                                      Master                                 7       

我想知道是否有一个函数可以帮助从 ISCED 数据帧第一列的向量 edu 中部分识别字符串,然后如果匹配,代码 (5、6 或 7) 将被退回。

我知道有像“%like%”或 "grepl" 这样的函数,但我正在寻找可以浏览向量 edu 的所有值的东西,而不仅仅是每次定义的一个特定字符串。

有没有人有任何见解?或者你们会建议使用带有 "grepl" 的循环吗?

谢谢!

一种方法是使用 grep

使用 paste0 创建一个字符串向量,并在与第一列 (Main_education_group) 匹配的任何位置获取索引。使用该索引从数据框中获取相应的 Code

ISCED$Code[grep(paste0(edu, collapse = "|"), ISCED$Main_education_program)]

#[1] 6 7

编辑

为了根据 OP 的要求获得更新的输出,我们可以使用 sapply 并遍历 edu 中的所有元素并检查它是否存在于 Main_education_program[=22 中=]

sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program)) > 0) 
                         ISCED$Code[grep(x, ISCED$Main_education_program)] else NA)

哪个returns

#  Bachelor        NA    Master  Superieur 
#        6         NA         7        NA 

如果我们需要它而不需要名称,我们可以将其包装在 unname

unname(sapply(edu, function(x) if(length(grep(x, ISCED$Main_education_program))>0) 
                  ISCED$Code[grep(x, ISCED$Main_education_program)] else NA ))

#[1]  6 NA  7 NA