模糊地址匹配 R

Fuzzy Address matching R

是的,之前有人问过这个问题,但我找不到能为这个问题提供简单、清晰答案的讨论帖。

我在下面有示例数据 - 我有两列,col1 是当前地址,col2 是我被告知比当前地址 'better' 的地址。我需要查看第二列比第一列多多少 'better'。大多数时候,第二个更好 b/c 它包含第一个缺少的次要信息,例如公寓号。

test <- as.data.frame(matrix(c(
"742 Evergreen Terrace" , "742 Evergreen Terrace Apt 3" , 
"31 Spooner Street #42" , "31 Spooner Street", 
"129 W 81st Street" , "129 W 81st Street Apt 5A" , 
"245 E 73rd Street", "245 E 73rd Street Apt 6") , ncol=2, byrow=TRUE, 
dimnames=list(NULL, c("old_addr" , "new_addr"))) ,stringsAsFactors=FALSE)

我在这里找到了一个接近我想要的答案: Fuzzy match row in one column with same row in next column

我需要创建第三列,它是一个简单的 1/0 变量,如果近似匹配则 == 1,否则为 0。我需要能够指定近似匹配的阈值。

对于我的第一个示例 - 742 Evergreen Terrace 与 742 Evergreen Terrace Apt 3,长度相差六。我需要能够指定六、八或其他长度差。

我查看了 agrep,但我需要比较同一行中的两列数据,而它不允许这样做。我也试过lapply,但它的结果让我觉得它正在循环遍历整个列中的所有数据,我需要逐行比较。还有我不明白的最大距离,下面的 ifelse 和最大值 1(如果我正确理解为 1 == 可以有一个编辑或更改单元),它应该会抛出错误,但它只会抛出一个错误案例.

agrep(test$old_addr, test$new_addr, max.distance = 0.1, ignore.case = TRUE)

test$fuzz_match <- lapply(test$old_addr , agrep , x = 
test$new_addr , max.distance = 1 , ignore.case = TRUE)

感谢任何帮助,谢谢!

您可以计算每对之间的 Levenshtein distance。那么你需要决定的是距离必须有多大才能使两者不是同一个地址。

test$lev_dist <- mapply(adist, test$old_addr, test$new_addr)

test$same_addr <- test$lev_dist < 5

test
#                old_addr                    new_addr lev_dist same_addr
# 1 742 Evergreen Terrace 742 Evergreen Terrace Apt 3        6     FALSE
# 2 31 Spooner Street #42           31 Spooner Street        4      TRUE
# 3     129 W 81st Street    129 W 81st Street Apt 5A        7     FALSE
# 4     245 E 73rd Street     245 E 73rd Street Apt 6        6     FALSE

您可以以类似的方式将 agrep()mapply() 一起使用。

test$agrep_match <- mapply(agrep, test$old_addr, test$new_addr)
test$agrep_match <- lengths(test$agrep_match) == 1
test
#                old_addr                    new_addr agrep_match
# 1 742 Evergreen Terrace 742 Evergreen Terrace Apt 3        TRUE
# 2 31 Spooner Street #42           31 Spooner Street       FALSE
# 3     129 W 81st Street    129 W 81st Street Apt 5A        TRUE
# 4     245 E 73rd Street     245 E 73rd Street Apt 6        TRUE

agrep() 也是基于 Levenshtein 距离,但是有很多不同的选项来调整阈值,我相信你已经找到了。


除 Levenshtein 之外,还有其他差异度量可能更适合此应用程序。包 stringdist 有许多其他可用的字符串距离度量。