在一个 Python 数据帧/字典中搜索另一个数据帧中的模糊匹配
Searching one Python dataframe / dictionary for fuzzy matches in another dataframe
我有以下 pandas 数据框,其中包含 50,000 行和 20 列(包括相关列的片段):
df1:
PRODUCT_ID PRODUCT_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce"
1 185965653252 "Chicken Salad with Dressing"
2 165958565556 "Pork and Honey Rissoles"
3 655262522233 "Cheese, Ham and Tomato Sandwich"
4 857485966653 "Coleslaw with Yoghurt Dressing"
5 524156285551 "Lemon and Raspberry Cheesecake"
我还有以下数据框(我也以字典形式保存),它有 2 列和 20,000 个唯一行:
df2(也保存为dict_2)
PROD_ID PROD_DESCRIPTION
0 548576 "Fish Burger"
1 156956 "Chckn Salad w/Ranch Dressing"
2 257848 "Rissoles - Lamb & Rosemary"
3 298770 "Lemn C-cake"
4 651452 "Potato Salad with Bacon"
5 100256 "Cheese Cake - Lemon Raspberry Coulis"
我想要做的是将 df1 中的 "PRODUCT_DESCRIPTION" 字段与 df2 中的 "PROD_DESCRIPTION" 字段进行比较,并找到最接近的 match/matches 以帮助完成繁重的工作。然后我需要手动检查匹配项,但会快得多理想的结果是这样的,例如注意到一个或多个部分匹配:
PRODUCT_ID PRODUCT_DESCRIPTION PROD_ID PROD_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce" 548576 "Fish Burger"
1 185965653252 "Chicken Salad with Dressing" 156956 "Chckn Salad w/Ranch Dressing"
2 165958565556 "Pork and Honey Rissoles" 257848 "Rissoles - Lamb & Rosemary"
3 655262522233 "Cheese, Ham and Tomato Sandwich" NaN NaN
4 857485966653 "Coleslaw with Yoghurt Dressing" NaN NaN
5 524156285551 "Lemon and Raspberry Cheesecake" 298770 "Lemn C-cake"
6 524156285551 "Lemon and Raspberry Cheesecake" 100256 "Cheese Cake - Lemon Raspberry Coulis"
我已经完成了一个确定完全匹配的连接。保留索引并不重要,因为每个 df 中的产品 ID 都是唯一的。结果也可以保存到一个新的数据框中,因为这将被应用到具有大约 1400 万行的第三个数据框中。
我使用了以下问题和答案(以及其他):
Is it possible to do fuzzy match merge with python pandas
Fuzzy merge match with duplicates 包括按照其中一个答案的建议尝试水母模块
Fuzzy match items in a column of an array
以及各种 loops/functions/mapping 等,但都没有成功,要么获得第一个得分较低的 "fuzzy match",要么未检测到匹配项。
我喜欢根据 here 生成 matching/distance 分数列的想法,因为它可以让我加快手动检查过程。
我正在使用 Python 2.7,pandas 并安装了 fuzzywuzzy。
您应该能够遍历两个数据框并使用您想要的信息填充第三个数据框的字典:
d = {
'df1_id': [],
'df1_prod_desc': [],
'df2_id': [],
'df2_prod_desc': [],
'fuzzywuzzy_sim': []
}
for _, df1_row in df1.iterrows():
for _, df2_row in df2.iterrows():
d['df1_id'] = df1_row['PRODUCT_ID']
...
df3 = pd.DataFrame.from_dict(d)
使用 fuzz.ratio
作为我的距离度量,像这样计算我的距离矩阵
df3 = pd.DataFrame(index=df.index, columns=df2.index)
for i in df3.index:
for j in df3.columns:
vi = df.get_value(i, 'PRODUCT_DESCRIPTION')
vj = df2.get_value(j, 'PROD_DESCRIPTION')
df3.set_value(
i, j, fuzz.ratio(vi, vj))
print(df3)
0 1 2 3 4 5
0 63 15 24 23 34 27
1 26 84 19 21 52 32
2 18 31 33 12 35 34
3 10 31 35 10 41 42
4 29 52 32 10 42 12
5 15 28 21 49 8 55
设置可接受距离的阈值。我设置 50
找到每行具有最大值的索引值(df2
)。
threshold = df3.max(1) > 50
idxmax = df3.idxmax(1)
分配作业
df['PROD_ID'] = np.where(threshold, df2.loc[idxmax, 'PROD_ID'].values, np.nan)
df['PROD_DESCRIPTION'] = np.where(threshold, df2.loc[idxmax, 'PROD_DESCRIPTION'].values, np.nan)
df
我没有足够的声誉来评论来自 @piRSquared 的回答。因此这个答案。
- “vi”和“vj”的定义没有通过错误 (
AttributeError: 'DataFrame' object has no attribute 'get_value'
) .当我插入“下划线”时它起作用了。例如。 vi = df._get_value(i, 'PRODUCT_DESCRIPTION')
- “
set_value
”也存在类似问题,同样的解决方案也适用于此。例如。 df3._set_value(i, j, fuzz.ratio(vi, vj))
- 生成
idxmax
造成了另一个错误 (TypeError: reduction operation 'argmax' not allowed for this dtype
),这是因为 df3 的内容(模糊比率)的类型是 'object'。我在定义 threshold
之前将它们全部转换为数字并且它起作用了。例如。 df3 = df3.apply(pd.to_numeric)
非常感谢 @piRSquared 的解决方案。对于像我这样的 Python 新手来说,它就像一个魅力。我发布这个答案是为了让像我这样的其他新手更容易。
我有以下 pandas 数据框,其中包含 50,000 行和 20 列(包括相关列的片段):
df1:
PRODUCT_ID PRODUCT_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce"
1 185965653252 "Chicken Salad with Dressing"
2 165958565556 "Pork and Honey Rissoles"
3 655262522233 "Cheese, Ham and Tomato Sandwich"
4 857485966653 "Coleslaw with Yoghurt Dressing"
5 524156285551 "Lemon and Raspberry Cheesecake"
我还有以下数据框(我也以字典形式保存),它有 2 列和 20,000 个唯一行:
df2(也保存为dict_2)
PROD_ID PROD_DESCRIPTION
0 548576 "Fish Burger"
1 156956 "Chckn Salad w/Ranch Dressing"
2 257848 "Rissoles - Lamb & Rosemary"
3 298770 "Lemn C-cake"
4 651452 "Potato Salad with Bacon"
5 100256 "Cheese Cake - Lemon Raspberry Coulis"
我想要做的是将 df1 中的 "PRODUCT_DESCRIPTION" 字段与 df2 中的 "PROD_DESCRIPTION" 字段进行比较,并找到最接近的 match/matches 以帮助完成繁重的工作。然后我需要手动检查匹配项,但会快得多理想的结果是这样的,例如注意到一个或多个部分匹配:
PRODUCT_ID PRODUCT_DESCRIPTION PROD_ID PROD_DESCRIPTION
0 165985858958 "Fish Burger with Lettuce" 548576 "Fish Burger"
1 185965653252 "Chicken Salad with Dressing" 156956 "Chckn Salad w/Ranch Dressing"
2 165958565556 "Pork and Honey Rissoles" 257848 "Rissoles - Lamb & Rosemary"
3 655262522233 "Cheese, Ham and Tomato Sandwich" NaN NaN
4 857485966653 "Coleslaw with Yoghurt Dressing" NaN NaN
5 524156285551 "Lemon and Raspberry Cheesecake" 298770 "Lemn C-cake"
6 524156285551 "Lemon and Raspberry Cheesecake" 100256 "Cheese Cake - Lemon Raspberry Coulis"
我已经完成了一个确定完全匹配的连接。保留索引并不重要,因为每个 df 中的产品 ID 都是唯一的。结果也可以保存到一个新的数据框中,因为这将被应用到具有大约 1400 万行的第三个数据框中。
我使用了以下问题和答案(以及其他):
Is it possible to do fuzzy match merge with python pandas
Fuzzy merge match with duplicates 包括按照其中一个答案的建议尝试水母模块
Fuzzy match items in a column of an array
以及各种 loops/functions/mapping 等,但都没有成功,要么获得第一个得分较低的 "fuzzy match",要么未检测到匹配项。
我喜欢根据 here 生成 matching/distance 分数列的想法,因为它可以让我加快手动检查过程。
我正在使用 Python 2.7,pandas 并安装了 fuzzywuzzy。
您应该能够遍历两个数据框并使用您想要的信息填充第三个数据框的字典:
d = {
'df1_id': [],
'df1_prod_desc': [],
'df2_id': [],
'df2_prod_desc': [],
'fuzzywuzzy_sim': []
}
for _, df1_row in df1.iterrows():
for _, df2_row in df2.iterrows():
d['df1_id'] = df1_row['PRODUCT_ID']
...
df3 = pd.DataFrame.from_dict(d)
使用 fuzz.ratio
作为我的距离度量,像这样计算我的距离矩阵
df3 = pd.DataFrame(index=df.index, columns=df2.index)
for i in df3.index:
for j in df3.columns:
vi = df.get_value(i, 'PRODUCT_DESCRIPTION')
vj = df2.get_value(j, 'PROD_DESCRIPTION')
df3.set_value(
i, j, fuzz.ratio(vi, vj))
print(df3)
0 1 2 3 4 5
0 63 15 24 23 34 27
1 26 84 19 21 52 32
2 18 31 33 12 35 34
3 10 31 35 10 41 42
4 29 52 32 10 42 12
5 15 28 21 49 8 55
设置可接受距离的阈值。我设置 50
找到每行具有最大值的索引值(df2
)。
threshold = df3.max(1) > 50
idxmax = df3.idxmax(1)
分配作业
df['PROD_ID'] = np.where(threshold, df2.loc[idxmax, 'PROD_ID'].values, np.nan)
df['PROD_DESCRIPTION'] = np.where(threshold, df2.loc[idxmax, 'PROD_DESCRIPTION'].values, np.nan)
df
我没有足够的声誉来评论来自 @piRSquared 的回答。因此这个答案。
- “vi”和“vj”的定义没有通过错误 (
AttributeError: 'DataFrame' object has no attribute 'get_value'
) .当我插入“下划线”时它起作用了。例如。vi = df._get_value(i, 'PRODUCT_DESCRIPTION')
- “
set_value
”也存在类似问题,同样的解决方案也适用于此。例如。df3._set_value(i, j, fuzz.ratio(vi, vj))
- 生成
idxmax
造成了另一个错误 (TypeError: reduction operation 'argmax' not allowed for this dtype
),这是因为 df3 的内容(模糊比率)的类型是 'object'。我在定义threshold
之前将它们全部转换为数字并且它起作用了。例如。df3 = df3.apply(pd.to_numeric)
非常感谢 @piRSquared 的解决方案。对于像我这样的 Python 新手来说,它就像一个魅力。我发布这个答案是为了让像我这样的其他新手更容易。