多维分类向量之间的最佳相似性(相异性)度量
Best similaity (dissimilarity) measure among multidimensions categorical vectors
我想找出以下数据点之间的相似性(不相似性):
我的分类数据集如下:{艺术,科学,Math.s,医学,物理,化学,工程..等}例如15或20个类别。
所以我想在这些库中找到 Sim(Dis),其中每个库行(数据点)代表行向量,
Books attributes
libraries total-books Art science Math. chemistry
lib1 1000 50 200 0 3
lib2 500 12 0 0 44
lib3 etc..
table这里表示每个图书馆找到的图书数量,当我们找到它的频率占找到的图书总数的百分比时,然后根据频率百分比重新安排每个图书馆的类别表示例如
我不考虑以下向量中的零类别,
图书馆 1 = { 科学 , 艺术 , 化学 , ... }
图书馆 2 = { 化学 , 艺术 , .... }
等...
如何找到 lib1 和 lib2 等之间的相似性/不同性...
请提出任何建议。
如果按图书总数归一化。您可以将剩余的列视为 直方图 。
那么您可以尝试任何基于分布的距离:
- 直方图相交距离
- kullback-leibler-divergence
- $\chi^2$距离
- Jensen-Shannon 散度
我想找出以下数据点之间的相似性(不相似性):
我的分类数据集如下:{艺术,科学,Math.s,医学,物理,化学,工程..等}例如15或20个类别。
所以我想在这些库中找到 Sim(Dis),其中每个库行(数据点)代表行向量,
Books attributes
libraries total-books Art science Math. chemistry
lib1 1000 50 200 0 3
lib2 500 12 0 0 44
lib3 etc..
table这里表示每个图书馆找到的图书数量,当我们找到它的频率占找到的图书总数的百分比时,然后根据频率百分比重新安排每个图书馆的类别表示例如 我不考虑以下向量中的零类别,
图书馆 1 = { 科学 , 艺术 , 化学 , ... } 图书馆 2 = { 化学 , 艺术 , .... } 等...
如何找到 lib1 和 lib2 等之间的相似性/不同性...
请提出任何建议。
如果按图书总数归一化。您可以将剩余的列视为 直方图 。
那么您可以尝试任何基于分布的距离:
- 直方图相交距离
- kullback-leibler-divergence
- $\chi^2$距离
- Jensen-Shannon 散度