模糊身份指纹
Fuzzy identity fingerprinting
我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格,我想确定客户上次购买商品的时间。
问题是:有些字段包含拼写错误,有些是故意输入错误的。
在 GitHub 上,https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match or https://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见问题,我希望能找到现有的解决方案。
您能推荐解决此类问题的方法吗?是否存在针对我所缺少的此类问题的现有项目?
所有字段的常规字符串距离通常是否足够好?
到目前为止,我认为 http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html 并且使用 fuzzyWuzzy 似乎是最好的方法。
我在你的另一个问题中提到了它,但是dedupe python library does what you want。
基本上,它计算一对行中每个字段之间的距离,然后学习最佳权重以将这些距离组合成单个记录对分数。
我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格,我想确定客户上次购买商品的时间。
问题是:有些字段包含拼写错误,有些是故意输入错误的。
在 GitHub 上,https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match or https://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见问题,我希望能找到现有的解决方案。
您能推荐解决此类问题的方法吗?是否存在针对我所缺少的此类问题的现有项目? 所有字段的常规字符串距离通常是否足够好?
到目前为止,我认为 http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html 并且使用 fuzzyWuzzy 似乎是最好的方法。
我在你的另一个问题中提到了它,但是dedupe python library does what you want。
基本上,它计算一对行中每个字段之间的距离,然后学习最佳权重以将这些距离组合成单个记录对分数。