如何计算包含 Python 中字符串的两个列表的 Jaccard 相似度？

Question

我有两个包含用户名的列表，我想计算 Jaccard 相似度。可能吗？

This 线程显示了如何计算两个字符串之间的 Jaccard 相似度，但是我想将其应用于两个列表，其中每个元素都是一个单词（例如，用户名）。

Answer 1

假设您的用户名不重复，您可以使用相同的想法：

def jaccard(a, b):
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

list1 = ['dog', 'cat', 'rat']
list2 = ['dog', 'cat', 'mouse']
# The intersection is ['dog', 'cat']
# union is ['dog', 'cat', 'rat', 'mouse]
words1 = set(list1)
words2 = set(list2)
jaccard(words1, words2)
>>> 0.5

Answer 2

毕竟我最终编写了自己的解决方案：

def jaccard_similarity(list1, list2):
    intersection = len(list(set(list1).intersection(list2)))
    union = (len(set(list1)) + len(set(list2))) - intersection
    return float(intersection) / union

Answer 3

@aventinus 我没有足够的声誉来为你的答案添加评论，但为了让事情更清楚，你的解决方案测量 jaccard_similarity 但函数被错误命名为 jaccard_distance，这实际上是 1 - jaccard_similarity

Answer 4

对于Python 3:

def jaccard_similarity(list1, list2):
    s1 = set(list1)
    s2 = set(list2)
    return float(len(s1.intersection(s2)) / len(s1.union(s2)))
list1 = ['dog', 'cat', 'cat', 'rat']
list2 = ['dog', 'cat', 'mouse']
jaccard_similarity(list1, list2)
>>> 0.5

对于 Python2 使用 return len(s1.intersection(s2)) / float(len(s1.union(s2)))

Answer 5

如果你想包含重复的元素，你可以使用 Counter，我想这会比较快，因为它只是一个扩展的 dict 在引擎盖下：

from collections import Counter
def jaccard_repeats(a, b):
    """Jaccard similarity measure between input iterables,
    allowing repeated elements"""
    _a = Counter(a)
    _b = Counter(b)
    c = (_a - _b) + (_b - _a)
    n = sum(c.values())
    return n/(len(a) + len(b) - n)

list1 = ['dog', 'cat', 'rat', 'cat']
list2 = ['dog', 'cat', 'rat']
list3 = ['dog', 'cat', 'mouse']     

jaccard_repeats(list1, list3)      
>>> 0.75

jaccard_repeats(list1, list2) 
>>> 0.16666666666666666

jaccard_repeats(list2, list3)  
>>> 0.5

Answer 6

您可以使用 Distance 库

#pip install Distance

import distance

distance.jaccard("decide", "resize")

# Returns
0.7142857142857143

Answer 7

@Aventinus（我也不能发表评论）：注意 Jaccard similarity 是对集合的操作，所以在分母部分它也应该使用集合（而不是列表）。因此，例如 jaccard_similarity('aa', 'ab') 应该导致 0.5。

def jaccard_similarity(list1, list2):
    intersection = len(set(list1).intersection(list2))
    union = len(set(list1)) + len(set(list2)) - intersection

    return intersection / union

请注意，在交叉路口，不需要先转换为列表。此外，在 Python 3.

中不需要转换为 float

Answer 8

为了避免并集（分母）中的元素重复，并且更快一点我建议：

def Jaccar_score(lista1, lista2):    
    inter = len(list(set(lista_1) & set(lista_2)))
    union = len(list(set(lista_1) | set(lista_2)))
    return inter/union

如何计算包含 Python 中字符串的两个列表的 Jaccard 相似度？

How can I calculate the Jaccard Similarity of two lists containing strings in Python?

python

similarity

python-3.x