了解数据类型和属性值
Understanding data types and attributes values
我想了解以下数据的数据类型和属性值,了解它可以对select分类或聚类算法做出正确的决策。
我的数据包含 100 个文件夹,每个文件夹都包含图像,因此我 select 编辑了一些内容以根据其内容对这些图像进行分类
像{大海,天空,狮子....等}
categorical- attributes
folder-name total images sea sky food animals
folder1 100 10 2 0 5
folder2 20 0 1 15 3
etc.
total images是指该文件夹中的图像总数,每个类别向量中的数量是该图像在每个文件夹中找到的频率,例如在文件夹1中找到海图10(10张图像是海图)等。 .
我知道这里的值是离散的,但属性是什么 { interval , nominal , ordinal }
值已根据简单比较分组为 folder1.image1=sea 如果是则 1 否则为 0 然后我将图像值分组以声明上述 table ,
如果将频率值转换为序数,计算频率百分比,如果其 10% 则为 1,20% 则为 2 这样是正确的,
任何建议谢谢。
正如我在评论中所说,您实施了不同的集群方法:
- 欧几里得距离(假设发现 10% 最频繁的术语并相应地构建 space(X .. n 轴),它们测量文档(文件夹)之间的距离
- 杰卡德指数
- CLIQUE看起来很有趣,但我对它还不够熟悉。
- tf-idf 非常适合发现不常用的术语(文件),并声称具有这些术语的文档相似且属于相同 class.
正如我之前提到的,我会从一些非常简单的事情开始,比如按术语或欧几里得距离对数据进行排名。"feel"。随着你的继续,你会得到更多的想法
我想了解以下数据的数据类型和属性值,了解它可以对select分类或聚类算法做出正确的决策。
我的数据包含 100 个文件夹,每个文件夹都包含图像,因此我 select 编辑了一些内容以根据其内容对这些图像进行分类 像{大海,天空,狮子....等}
categorical- attributes
folder-name total images sea sky food animals
folder1 100 10 2 0 5
folder2 20 0 1 15 3
etc.
total images是指该文件夹中的图像总数,每个类别向量中的数量是该图像在每个文件夹中找到的频率,例如在文件夹1中找到海图10(10张图像是海图)等。 .
我知道这里的值是离散的,但属性是什么 { interval , nominal , ordinal } 值已根据简单比较分组为 folder1.image1=sea 如果是则 1 否则为 0 然后我将图像值分组以声明上述 table , 如果将频率值转换为序数,计算频率百分比,如果其 10% 则为 1,20% 则为 2 这样是正确的, 任何建议谢谢。
正如我在评论中所说,您实施了不同的集群方法:
- 欧几里得距离(假设发现 10% 最频繁的术语并相应地构建 space(X .. n 轴),它们测量文档(文件夹)之间的距离
- 杰卡德指数
- CLIQUE看起来很有趣,但我对它还不够熟悉。
- tf-idf 非常适合发现不常用的术语(文件),并声称具有这些术语的文档相似且属于相同 class.
正如我之前提到的,我会从一些非常简单的事情开始,比如按术语或欧几里得距离对数据进行排名。"feel"。随着你的继续,你会得到更多的想法