Python记录链接、模糊匹配和去重
Python Record Linkage, Fuzzy Match and Deduplication
我有 3 个客户数据集,共 7 列。
CustomerName
Address
Phone
StoreName
Mobile
Longitude
Latitude
每个数据集有 13000-18000 条记录。我正在尝试模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中没有相同的权重。我该如何处理????
你知道适合我的案例的图书馆吗?
我认为 Recordlinkage 库适合您的目的
您可以使用比较对象,需要各种匹配:
compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')
然后定义匹配,您可以自定义您想要的结果,即如果您希望至少匹配 2 个特征
features = compare_cl.compute(pairs, df)
matches = features[features.sum(axis=1) > 3]
我有 3 个客户数据集,共 7 列。
CustomerName
Address
Phone
StoreName
Mobile
Longitude
Latitude
每个数据集有 13000-18000 条记录。我正在尝试模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中没有相同的权重。我该如何处理???? 你知道适合我的案例的图书馆吗?
我认为 Recordlinkage 库适合您的目的
您可以使用比较对象,需要各种匹配:
compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')
然后定义匹配,您可以自定义您想要的结果,即如果您希望至少匹配 2 个特征
features = compare_cl.compute(pairs, df)
matches = features[features.sum(axis=1) > 3]