模糊身份指纹

Fuzzy identity fingerprinting

我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格,我想确定客户上次购买商品的时间。

问题是:有些字段包含拼写错误,有些是故意输入错误的。

在 GitHub 上,https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match or https://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见问题,我希望能找到现有的解决方案。

您能推荐解决此类问题的方法吗?是否存在针对我所缺少的此类问题的现有项目? 所有字段的常规字符串距离通常是否足够好?

到目前为止,我认为 http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html 并且使用 fuzzyWuzzy 似乎是最好的方法。

我在你的另一个问题中提到了它,但是dedupe python library does what you want

基本上,它计算一对行中每个字段之间的距离,然后学习最佳权重以将这些距离组合成单个记录对分数。