Python 的 fuzzywuzzy returns 不可预测的结果

Question

我在 python 中使用 fuzzy wuzzy，虽然它声称它使用 levenshtein 距离，但我发现许多具有单个字符不同的字符串会产生不同的结果。例如。

>>>fuzz.ratio("vendedor","vendedora")
94
>>>fuzz.ratio("estagiário","estagiária")
90
>>> fuzz.ratio("abcdefghijlmnopqrst","abcdefghijlmnopqrsty")
97
>>>fuzz.ratio("abc","abcd")
86
>>>fuzz.ratio("a","ab")
67

我猜 levenshtein 距离应该与所有示例中的单个字符距离相同，但我知道这不是简单的距离，它是某种 "equality percentage" 之类的。

我试图了解它是如何工作的，但我似乎无法理解。我的很长的字符串给出了 97，而很短的字符串给出了 67。我想这意味着字符串越大，对单个字符的影响就越小。但是对于 "vendedor"、"vendedora" 和 "estagiário"、"estagiária" 示例，情况并非如此，因为后者比前者大。

这是如何工作的？

我目前正在匹配用户输入的职位名称，尝试将错误输入的姓名与正确输入的姓名联系起来等等。是否有更好的包来完成我的任务？

Answer 1

关于 fuzzywuzzy 的一般工作原理，您是正确的。 fuzz.ratio 函数的较大输出数字意味着字符串彼此更接近（100 是完美匹配）。我执行了几个额外的测试用例来检查它是如何工作的。他们在这里：

fuzz.ratio("abc", "abce") #to show which extra letter doesn't matter.
86
fuzz.ratio("abcd", "abce") #to show that replacing a number is worse than adding.
75
fuzz.ratio("abc", "abc") #to find what a match gives.
100

从这些测试中，我们可以看出替换数字比添加字母对比率计算的影响更大（这就是为什么 estagiário/estagiária 比 vendedor/vendedora 更不匹配的原因，尽管更长）。根据 this，该包还可以用于自动 select 从可能的匹配列表中选择最佳，因此我认为这对于您的预期目的来说是一个不错的选择。

Python 的 fuzzywuzzy returns 不可预测的结果

Python's fuzzywuzzy returns unpredictable results

python

string-matching

fuzzywuzzy