用于比较事物并确定它们有多相似的算法和数据结构?

Algorithms and data structures for comparing things and deciding how similar they are?

可以应用什么算法 and/or 数据结构 来决定两件事有多相似基于一些共同特征.

处理此类问题的知识领域是什么?

一种方法可以是:

** 其中每个 int 值代表一些特征

** 并且每组整数代表一个特征中的一组特征,例如

Object_1: {1, 2, 3}, {11, 14}, {88, 90}

Object_2: {4, 7}, {12, 16}, {81, 91}

搜索词:{2, 90}

搜索应该 return 'Object_1' 因为 {2, 90}{1, 2, 3, 11, 14, 88, 90}

的子集

希望这个例子能缩小问题的范围。

那里有许多不同类型的相似性度量。要决定使用哪一个,第一步是指定您的 level of measurement 和数据类型。以下是分类数据和连续数据的一些相似性度量:

用于基于相似性学习的通用算法是最近邻算法。更多信息请参考John.D Kelleher's book.