选择性编辑距离

Selective edit distance

我有

这样的数据
Mega Mall
Mega Malls
L & T Gate 6
L & T Gate 5
L & T Gate 2
Megas Mall
Mega Mwll

现在我想把它清理干净。我采用了使用编辑距离 1 的编辑距离方法,并处理了 Mega Mall 案例。缺点是它也删除了 L & T Gate 5,2 [我保留第一个条目]。有什么办法可以解决这个问题,而不是删除这些案例和处理错别字等

是的,您可以使用加权形式的编辑距离,而无需真正改变算法或其时间或space复杂性。不要将任何替换、插入或删除计为 1,而是当涉及的字符(或替换字符中的任何一个)是数字时,将其计为更大的数字。

甚至可以对字符串中的特定 位置 进行不同的加权。例如。您可能会决定紧跟在一位或多位数字之后的每个字母都应该被视为更重要(因为例如地址 123B 与 123 有很大不同)。