了解数据类型和属性值

Understanding data types and attributes values

我想了解以下数据的数据类型和属性值,了解它可以对select分类或聚类算法做出正确的决策。

我的数据包含 100 个文件夹,每个文件夹都包含图像,因此我 select 编辑了一些内容以根据其内容对这些图像进行分类 像{大海,天空,狮子....等}

                              categorical- attributes 

folder-name    total images      sea         sky      food     animals   
folder1            100            10          2        0         5
folder2            20             0           1        15        3   
etc. 

total images是指该文件夹中的图像总数,每个类别向量中的数量是该图像在每个文件夹中找到的频率,例如在文件夹1中找到海图10(10张图像是海图)等。 .

我知道这里的值是离散的,但属性是什么 { interval , nominal , ordinal } 值已根据简单比较分组为 folder1.image1=sea 如果是则 1 否则为 0 然后我将图像值分组以声明上述 table , 如果将频率值转换为序数,计算频率百分比,如果其 10% 则为 1,20% 则为 2 这样是正确的, 任何建议谢谢。

正如我在评论中所说,您实施了不同的集群方法:

  1. 欧几里得距离(假设发现 10% 最频繁的术语并相应地构建 space(X .. n 轴),它们测量文档(文件夹)之间的距离
  2. 杰卡德指数
  3. CLIQUE看起来很有趣,但我对它还不够熟悉。
  4. tf-idf 非常适合发现不常用的术语(文件),并声称具有这些术语的文档相似且属于相同 class.

正如我之前提到的,我会从一些非常简单的事情开始,比如按术语或欧几里得距离对数据进行排名。"feel"。随着你的继续,你会得到更多的想法