从字典计算欧氏距离(sklearn)
Calculate euclidean distance from dicts (sklearn)
我的代码中已经计算了两个 dictionaries
,如下所示:
X = {'a': 10, 'b': 3, 'c': 5, ...}
Y = {'a': 8, 'c': 3, 'e': 8, ...}
实际上它们包含来自 wiki 文本的单词,但这应该可以说明我的意思。它们不一定包含相同的键。
最初我想像这样使用 sklearn
的成对度量:
from sklearn.metrics.pairwise import pairwise_distances
obama = wiki[wiki['name'] == 'Barack Obama']['tf_idf'][0]
biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
然而,这给出了一个错误:
--------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-124-7ff03bd40683> in <module>()
6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
7
----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds)
1205 func = partial(distance.cdist, metric=metric, **kwds)
1206
-> 1207 return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1208
1209
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1058 ret = Parallel(n_jobs=n_jobs, verbose=0)(
1059 fd(X, Y[s], **kwds)
-> 1060 for s in gen_even_slices(Y.shape[0], n_jobs))
1061
1062 return np.hstack(ret)
AttributeError: 'dict' object has no attribute 'shape'
对我来说,这看起来像是在尝试访问 shape
属性,而 dict
没有。我猜它需要 numpy
个数组。我如何转换字典,以便 sklearn
函数计算正确的距离,假设 0
值,如果一个字典没有某个键,另一个字典有?
你为什么不直接从你的稀疏表示来做呢?
In [1]: import math
In [2]: Y = {'a': 8, 'c':3,'e':8}
In [3]: X = {'a':10, 'b':3, 'c':5}
In [4]: math.sqrt(sum((X.get(d,0) - Y.get(d,0))**2 for d in set(X) | set(Y)))
Out[4]: 9.0
您似乎想要使用 X.get(search_string,0)
,它将输出值,如果未找到则输出 0。如果你有很多搜索字符串,你可以做 [X.get(s,0) for s in list_of_strings]
这将推送输出列表。
您可以先创建一个包含字典所有键的列表(重要的是要注意此列表必须排序):
X = {'a': 10, 'b': 3, 'c': 5}
Y = {'a': 8, 'c': 3, 'e': 8}
data = [X, Y]
words = sorted(list(reduce(set.union, map(set, data))))
这在 Python 2 中工作正常,但如果您使用 Python 3,则需要添加句子 from functools import reduce
(感谢 @Zelphir 发现了这一点)。如果您不想导入 functools
模块,您可以将上面代码段的最后一行替换为以下代码:
words = set(data[0])
for d in data[1:]:
words = words | set(d)
words = sorted(list(words))
无论您选择什么方法,列表 words
都可以设置一个矩阵,其中每一行对应一个字典(样本)和这些字典的值(特征)被放置在与其键对应的列中。
feats = zip(*[[d.get(w, 0) for d in data] for w in words])
这个矩阵可以传递给scikit的函数pairwise_distance
:
from sklearn.metrics.pairwise import pairwise_distances as pd
dist = pd(feats, metric='euclidean')
以下交互式会话演示了它是如何工作的:
In [227]: words
Out[227]: ['a', 'b', 'c', 'e']
In [228]: feats
Out[228]: [(10, 3, 5, 0), (8, 0, 3, 8)]
In [229]: dist
Out[229]:
array([[ 0., 9.],
[ 9., 0.]])
最后,您可以将上面的代码包装成一个函数来计算任意数量的字典的成对距离:
def my_func(data, metric='euclidean'):
words = set(data[0])
for d in data[1:]:
words = words | set(d)
words = sorted(list(words))
feats = zip(*[[d.get(w, 0) for d in data] for w in words])
return pd(feats, metric=metric)
我已经避免调用 reduce
以使包装器跨版本工作。
演示:
In [237]: W = {'w': 1}
In [238]: Z = {'z': 1}
In [239]: my_func((X, Y, W, Z), 'cityblock')
Out[239]:
array([[ 0., 15., 19., 19.],
[ 15., 0., 20., 20.],
[ 19., 20., 0., 2.],
[ 19., 20., 2., 0.]])
我的代码中已经计算了两个 dictionaries
,如下所示:
X = {'a': 10, 'b': 3, 'c': 5, ...}
Y = {'a': 8, 'c': 3, 'e': 8, ...}
实际上它们包含来自 wiki 文本的单词,但这应该可以说明我的意思。它们不一定包含相同的键。
最初我想像这样使用 sklearn
的成对度量:
from sklearn.metrics.pairwise import pairwise_distances
obama = wiki[wiki['name'] == 'Barack Obama']['tf_idf'][0]
biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
然而,这给出了一个错误:
--------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-124-7ff03bd40683> in <module>()
6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
7
----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds)
1205 func = partial(distance.cdist, metric=metric, **kwds)
1206
-> 1207 return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1208
1209
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1058 ret = Parallel(n_jobs=n_jobs, verbose=0)(
1059 fd(X, Y[s], **kwds)
-> 1060 for s in gen_even_slices(Y.shape[0], n_jobs))
1061
1062 return np.hstack(ret)
AttributeError: 'dict' object has no attribute 'shape'
对我来说,这看起来像是在尝试访问 shape
属性,而 dict
没有。我猜它需要 numpy
个数组。我如何转换字典,以便 sklearn
函数计算正确的距离,假设 0
值,如果一个字典没有某个键,另一个字典有?
你为什么不直接从你的稀疏表示来做呢?
In [1]: import math
In [2]: Y = {'a': 8, 'c':3,'e':8}
In [3]: X = {'a':10, 'b':3, 'c':5}
In [4]: math.sqrt(sum((X.get(d,0) - Y.get(d,0))**2 for d in set(X) | set(Y)))
Out[4]: 9.0
您似乎想要使用 X.get(search_string,0)
,它将输出值,如果未找到则输出 0。如果你有很多搜索字符串,你可以做 [X.get(s,0) for s in list_of_strings]
这将推送输出列表。
您可以先创建一个包含字典所有键的列表(重要的是要注意此列表必须排序):
X = {'a': 10, 'b': 3, 'c': 5}
Y = {'a': 8, 'c': 3, 'e': 8}
data = [X, Y]
words = sorted(list(reduce(set.union, map(set, data))))
这在 Python 2 中工作正常,但如果您使用 Python 3,则需要添加句子 from functools import reduce
(感谢 @Zelphir 发现了这一点)。如果您不想导入 functools
模块,您可以将上面代码段的最后一行替换为以下代码:
words = set(data[0])
for d in data[1:]:
words = words | set(d)
words = sorted(list(words))
无论您选择什么方法,列表 words
都可以设置一个矩阵,其中每一行对应一个字典(样本)和这些字典的值(特征)被放置在与其键对应的列中。
feats = zip(*[[d.get(w, 0) for d in data] for w in words])
这个矩阵可以传递给scikit的函数pairwise_distance
:
from sklearn.metrics.pairwise import pairwise_distances as pd
dist = pd(feats, metric='euclidean')
以下交互式会话演示了它是如何工作的:
In [227]: words
Out[227]: ['a', 'b', 'c', 'e']
In [228]: feats
Out[228]: [(10, 3, 5, 0), (8, 0, 3, 8)]
In [229]: dist
Out[229]:
array([[ 0., 9.],
[ 9., 0.]])
最后,您可以将上面的代码包装成一个函数来计算任意数量的字典的成对距离:
def my_func(data, metric='euclidean'):
words = set(data[0])
for d in data[1:]:
words = words | set(d)
words = sorted(list(words))
feats = zip(*[[d.get(w, 0) for d in data] for w in words])
return pd(feats, metric=metric)
我已经避免调用 reduce
以使包装器跨版本工作。
演示:
In [237]: W = {'w': 1}
In [238]: Z = {'z': 1}
In [239]: my_func((X, Y, W, Z), 'cityblock')
Out[239]:
array([[ 0., 15., 19., 19.],
[ 15., 0., 20., 20.],
[ 19., 20., 0., 2.],
[ 19., 20., 2., 0.]])