多维分类向量之间的最佳相似性（相异性）度量

Question

我想找出以下数据点之间的相似性（不相似性）：

我的分类数据集如下：{艺术，科学，Math.s，医学，物理，化学，工程..等}例如15或20个类别。

所以我想在这些库中找到 Sim(Dis)，其中每个库行（数据点）代表行向量，

                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..

table这里表示每个图书馆找到的图书数量，当我们找到它的频率占找到的图书总数的百分比时，然后根据频率百分比重新安排每个图书馆的类别表示例如我不考虑以下向量中的零类别，

图书馆 1 = { 科学 , 艺术 , 化学 , ... } 图书馆 2 = { 化学 , 艺术 , .... } 等...

如何找到 lib1 和 lib2 等之间的相似性/不同性...

请提出任何建议。

Answer 1

如果按图书总数归一化。您可以将剩余的列视为 直方图 。

那么您可以尝试任何基于分布的距离：

直方图相交距离
kullback-leibler-divergence
$\chi^2$距离
Jensen-Shannon 散度

多维分类向量之间的最佳相似性（相异性）度量

Best similaity (dissimilarity) measure among multidimensions categorical vectors

cluster-analysis

data-mining

data-analysis

uitableview