Pandas 快速模糊匹配
Pandas fast fuzzy match
我有两个格式如下的数据框:
d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
df1 = pd.DataFrame(data=d)
print(df1)
id2 name
0 1 paris city
1 1 london town
d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
df2 = pd.DataFrame(data=d)
print(df2)
id2 name
0 3 parid cit
1 4 londoon town
我希望根据名称列进行模糊字符串合并。最终结果如下:
id2 id2 name_x name_y match_level
0 3 1 parid cit paris city 0.91
1 4 2 londoon town london town 0.93
我曾尝试使用 fuzzy wuzzy 库,但是因为我正在合并的两个表都有 100k+ 行,代码需要几天才能完成 运行。
我还看到了一些 'fast' 实现,例如快速模糊测试或其他使用 tfidf 或 k 最近邻的实现:但是所有代码示例都显示了如何针对列表查找单个字符串的匹配项,我'我们还没有找到任何其他 libraries/implemntation 在两个数据帧之间进行模糊合并。
模糊合并 pandas 数据帧的快速有效方法是什么?
import fuzzymatcher
import pandas as pd
df_left = pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})
df_right = pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})
fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")
这是地址:https://github.com/RobinL/fuzzymatcher
我有两个格式如下的数据框:
d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
df1 = pd.DataFrame(data=d)
print(df1)
id2 name
0 1 paris city
1 1 london town
d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
df2 = pd.DataFrame(data=d)
print(df2)
id2 name
0 3 parid cit
1 4 londoon town
我希望根据名称列进行模糊字符串合并。最终结果如下:
id2 id2 name_x name_y match_level
0 3 1 parid cit paris city 0.91
1 4 2 londoon town london town 0.93
我曾尝试使用 fuzzy wuzzy 库,但是因为我正在合并的两个表都有 100k+ 行,代码需要几天才能完成 运行。
我还看到了一些 'fast' 实现,例如快速模糊测试或其他使用 tfidf 或 k 最近邻的实现:但是所有代码示例都显示了如何针对列表查找单个字符串的匹配项,我'我们还没有找到任何其他 libraries/implemntation 在两个数据帧之间进行模糊合并。
模糊合并 pandas 数据帧的快速有效方法是什么?
import fuzzymatcher
import pandas as pd
df_left = pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})
df_right = pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})
fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")
这是地址:https://github.com/RobinL/fuzzymatcher