多维分类向量之间的最佳相似性(相异性)度量

Best similaity (dissimilarity) measure among multidimensions categorical vectors

我想找出以下数据点之间的相似性(不相似性):

我的分类数据集如下:{艺术,科学,Math.s,医学,物理,化学,工程..等}例如15或20个类别。

所以我想在这些库中找到 Sim(Dis),其中每个库行(数据点)代表行向量,

                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..

table这里表示每个图书馆找到的图书数量,当我们找到它的频率占找到的图书总数的百分比时,然后根据频率百分比重新安排每个图书馆的类别表示例如 我不考虑以下向量中的零类别,

图书馆 1 = { 科学 , 艺术 , 化学 , ... } 图书馆 2 = { 化学 , 艺术 , .... } 等...

如何找到 lib1 和 lib2 等之间的相似性/不同性...

请提出任何建议。

如果按图书总数归一化。您可以将剩余的列视为 直方图

那么您可以尝试任何基于分布的距离:

  • 直方图相交距离
  • kullback-leibler-divergence
  • $\chi^2$距离
  • Jensen-Shannon 散度