Python 中的字符串距离矩阵使用 pdist
String Distance Matrix in Python using pdist
如何计算Python中字符串的Jaro Winkler距离矩阵?
我有大量手写字符串(名称和记录编号),我正试图在列表中查找重复项,包括拼写可能略有不同的重复项。 response to a similar question 建议使用带有自定义距离函数的 Scipy 的 pdist 函数。我尝试使用 Levenshtein 包中的 jaro_winkler 函数来实现此解决方案。问题在于 jaro_winkler 函数需要字符串输入,而 pdict 函数似乎需要二维数组输入。
示例:
import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler
fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)
预期输出 - 像这样:
Bob Carl Kristen Calr Doug
Bob 1.0 - - - -
Carl 0.0 1.0 - - -
Kristen 0.0 0.46 1.0 - -
Calr 0.0 0.93 0.46 1.0 -
Doug 0.53 0.0 0.0 0.0 1.0
实际错误:
jaro_winkler expected two Strings or two Unicodes
我假设这是因为 jaro_winkler 函数看到的是 ndarray 而不是字符串,我不确定如何在 pdist 函数的上下文中将函数输入转换为字符串.
有没有人建议允许这个工作?提前致谢!
对于任何有类似问题的人 - 我刚刚找到的一个解决方案是从 pdist 函数中提取相关代码并将 [0] 添加到 jaro_winkler 函数输入以从 numpy 中调用字符串数组。
示例:
X = np.asarray(fname, order='c')
s = X.shape
m, n = s
dm = np.zeros((m * (m - 1)) // 2, dtype=np.double)
k = 0
for i in xrange(0, m - 1):
for j in xrange(i + 1, m):
dm[k] = jaro_winkler(X[i][0], X[j][0])
k = k + 1
dms = squareform(dm)
即使此算法有效,我仍然想了解是否有 "right" 计算机科学方法可以使用 pdist 函数执行此操作。谢谢,希望这对某人有所帮助!
您需要包装距离函数,就像我在以下示例中使用 Levensthein 距离所演示的那样
import numpy as np
from Levenshtein import distance
from scipy.spatial.distance import pdist, squareform
# my list of strings
strings = ["hello","hallo","choco"]
# prepare 2 dimensional array M x N (M entries (3) with N dimensions (1))
transformed_strings = np.array(strings).reshape(-1,1)
# calculate condensed distance matrix by wrapping the Levenshtein distance function
distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))
# get square matrix
print(squareform(distance_matrix))
Output:
array([[ 0., 1., 4.],
[ 1., 0., 4.],
[ 4., 4., 0.]])
这是一个既不需要 numpy 也不需要 scipy 的简洁解决方案:
from Levenshtein import jaro_winkler
data = ['Bob','Carl','Kristen','Calr', 'Doug']
dm = [[ jaro_winkler(a, b) for b in data] for a in data]
print('\n'.join([''.join([f'{item:6.2f}' for item in row]) for row in dm]))
1.00 0.00 0.00 0.00 0.53
0.00 1.00 0.46 0.93 0.00
0.00 0.46 1.00 0.46 0.00
0.00 0.93 0.46 1.00 0.00
0.53 0.00 0.00 0.00 1.00
如何计算Python中字符串的Jaro Winkler距离矩阵?
我有大量手写字符串(名称和记录编号),我正试图在列表中查找重复项,包括拼写可能略有不同的重复项。 response to a similar question 建议使用带有自定义距离函数的 Scipy 的 pdist 函数。我尝试使用 Levenshtein 包中的 jaro_winkler 函数来实现此解决方案。问题在于 jaro_winkler 函数需要字符串输入,而 pdict 函数似乎需要二维数组输入。
示例:
import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler
fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)
预期输出 - 像这样:
Bob Carl Kristen Calr Doug
Bob 1.0 - - - -
Carl 0.0 1.0 - - -
Kristen 0.0 0.46 1.0 - -
Calr 0.0 0.93 0.46 1.0 -
Doug 0.53 0.0 0.0 0.0 1.0
实际错误:
jaro_winkler expected two Strings or two Unicodes
我假设这是因为 jaro_winkler 函数看到的是 ndarray 而不是字符串,我不确定如何在 pdist 函数的上下文中将函数输入转换为字符串.
有没有人建议允许这个工作?提前致谢!
对于任何有类似问题的人 - 我刚刚找到的一个解决方案是从 pdist 函数中提取相关代码并将 [0] 添加到 jaro_winkler 函数输入以从 numpy 中调用字符串数组。
示例:
X = np.asarray(fname, order='c')
s = X.shape
m, n = s
dm = np.zeros((m * (m - 1)) // 2, dtype=np.double)
k = 0
for i in xrange(0, m - 1):
for j in xrange(i + 1, m):
dm[k] = jaro_winkler(X[i][0], X[j][0])
k = k + 1
dms = squareform(dm)
即使此算法有效,我仍然想了解是否有 "right" 计算机科学方法可以使用 pdist 函数执行此操作。谢谢,希望这对某人有所帮助!
您需要包装距离函数,就像我在以下示例中使用 Levensthein 距离所演示的那样
import numpy as np
from Levenshtein import distance
from scipy.spatial.distance import pdist, squareform
# my list of strings
strings = ["hello","hallo","choco"]
# prepare 2 dimensional array M x N (M entries (3) with N dimensions (1))
transformed_strings = np.array(strings).reshape(-1,1)
# calculate condensed distance matrix by wrapping the Levenshtein distance function
distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))
# get square matrix
print(squareform(distance_matrix))
Output:
array([[ 0., 1., 4.],
[ 1., 0., 4.],
[ 4., 4., 0.]])
这是一个既不需要 numpy 也不需要 scipy 的简洁解决方案:
from Levenshtein import jaro_winkler
data = ['Bob','Carl','Kristen','Calr', 'Doug']
dm = [[ jaro_winkler(a, b) for b in data] for a in data]
print('\n'.join([''.join([f'{item:6.2f}' for item in row]) for row in dm]))
1.00 0.00 0.00 0.00 0.53
0.00 1.00 0.46 0.93 0.00
0.00 0.46 1.00 0.46 0.00
0.00 0.93 0.46 1.00 0.00
0.53 0.00 0.00 0.00 1.00