用于比较事物并确定它们有多相似的算法和数据结构?
Algorithms and data structures for comparing things and deciding how similar they are?
可以应用什么算法 and/or 数据结构 来决定两件事有多相似基于一些共同特征.
处理此类问题的知识领域是什么?
一种方法可以是:
** 其中每个 int 值代表一些特征
** 并且每组整数代表一个特征中的一组特征,例如
Object_1: {1, 2, 3}, {11, 14}, {88, 90}
Object_2: {4, 7}, {12, 16}, {81, 91}
搜索词:{2, 90}
搜索应该 return 'Object_1'
因为 {2, 90}
是 {1, 2, 3, 11, 14, 88, 90}
的子集
希望这个例子能缩小问题的范围。
那里有许多不同类型的相似性度量。要决定使用哪一个,第一步是指定您的 level of measurement 和数据类型。以下是分类数据和连续数据的一些相似性度量:
- 对于分类数据:
- 汉明距离
- 索卡尔-米歇尔
- 罗素–拉奥
- 对于连续数据:
- 基于 Minkowski 的距离,例如 Euclidean distance, Manhattan distance
- Mahalanobis distance
用于基于相似性学习的通用算法是最近邻算法。更多信息请参考John.D Kelleher's book.
可以应用什么算法 and/or 数据结构 来决定两件事有多相似基于一些共同特征.
处理此类问题的知识领域是什么?
一种方法可以是:
** 其中每个 int 值代表一些特征
** 并且每组整数代表一个特征中的一组特征,例如
Object_1: {1, 2, 3}, {11, 14}, {88, 90}
Object_2: {4, 7}, {12, 16}, {81, 91}
搜索词:{2, 90}
搜索应该 return 'Object_1'
因为 {2, 90}
是 {1, 2, 3, 11, 14, 88, 90}
希望这个例子能缩小问题的范围。
那里有许多不同类型的相似性度量。要决定使用哪一个,第一步是指定您的 level of measurement 和数据类型。以下是分类数据和连续数据的一些相似性度量:
- 对于分类数据:
- 汉明距离
- 索卡尔-米歇尔
- 罗素–拉奥
- 对于连续数据:
- 基于 Minkowski 的距离,例如 Euclidean distance, Manhattan distance
- Mahalanobis distance
用于基于相似性学习的通用算法是最近邻算法。更多信息请参考John.D Kelleher's book.