了解数据类型和属性值

Question

我想了解以下数据的数据类型和属性值，了解它可以对select分类或聚类算法做出正确的决策。

我的数据包含 100 个文件夹，每个文件夹都包含图像，因此我 select 编辑了一些内容以根据其内容对这些图像进行分类像{大海，天空，狮子....等}

                              categorical- attributes 

folder-name    total images      sea         sky      food     animals   
folder1            100            10          2        0         5
folder2            20             0           1        15        3   
etc.

total images是指该文件夹中的图像总数，每个类别向量中的数量是该图像在每个文件夹中找到的频率，例如在文件夹1中找到海图10（10张图像是海图）等。 .

我知道这里的值是离散的，但属性是什么 { interval , nominal , ordinal } 值已根据简单比较分组为 folder1.image1=sea 如果是则 1 否则为 0 然后我将图像值分组以声明上述 table ，如果将频率值转换为序数，计算频率百分比，如果其 10% 则为 1，20% 则为 2 这样是正确的，任何建议谢谢。

Answer 1

正如我在评论中所说，您实施了不同的集群方法：

欧几里得距离（假设发现 10% 最频繁的术语并相应地构建 space（X .. n 轴），它们测量文档（文件夹）之间的距离
杰卡德指数
CLIQUE看起来很有趣，但我对它还不够熟悉。
tf-idf 非常适合发现不常用的术语（文件），并声称具有这些术语的文档相似且属于相同 class.

正如我之前提到的，我会从一些非常简单的事情开始，比如按术语或欧几里得距离对数据进行排名。"feel"。随着你的继续，你会得到更多的想法

了解数据类型和属性值

Understanding data types and attributes values

numeric

data-analysis

numerical-methods

categories

categorical-data