模糊身份指纹

Fuzzy identity fingerprinting

我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格，我想确定客户上次购买商品的时间。

问题是：有些字段包含拼写错误，有些是故意输入错误的。

在 GitHub 上，https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match or https://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见问题，我希望能找到现有的解决方案。

您能推荐解决此类问题的方法吗？是否存在针对我所缺少的此类问题的现有项目？所有字段的常规字符串距离通常是否足够好？

到目前为止，我认为 http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html 并且使用 fuzzyWuzzy 似乎是最好的方法。

我在你的另一个问题中提到了它，但是dedupe python library does what you want。

基本上，它计算一对行中每个字段之间的距离，然后学习最佳权重以将这些距离组合成单个记录对分数。