衡量任意两个集合相似度的指标是什么

What is a metric to measure the similarity of any two sets

我寻求一个函数,它可以仅根据元素为任意两个集合分配一个实数。我需要它对集合的交集范围敏感,但如果集合有无关项则进行惩罚。换句话说,我想在同一个指标中计算召回率和准确率。

您要找的是 Jaccard index:

J(A, B) := |A ∩ B| / |A ∪ B|

因此它会计算两个集合共有多少个元素,然后除以唯一元素的个数。

如果两个集合相同,则 J(A, B) 最大为 1。如果它们不共享任何元素,则最小值为零。您可能想为两个集合都为空的情况分配一个数字。