Weka Simple K 表示处理标称属性
Weka Simple K means handling nominal attributes
我想了解 Weka 中的 K-means 处理标称属性的简单程度以及为什么它在处理此类属性时效率不高。
我读到它计算此类属性的模式。我想知道相似度是怎么计算的
举个例子:
考虑具有 3 个数值和一个标称属性的数据集。
名义属性有 3 个值:A、B 和 C。
Instance1 的值为 A,Instance2 的值为 B,Instance3 的值为 A。
在这种情况下,Instance1 可能更类似于 Instance3(当然取决于其他数字属性)。 Simple K-means 在这种情况下如何工作?
跟进:
如果名义属性有更多(10)个可能值怎么办?
您可以尝试将其转换为二进制特征,对于每个这样的标称属性,例如has_A, has_B, has_C
。然后,如果您对其进行缩放,i1 和 i3 将更接近,因为该属性的平均值将高于 0.5(以您的示例为例)- i2 将更加突出。
如果它有更多,那么你只需为每个可能的值添加更多的二元特征。基本上你只需旋转每个名义属性。
我想了解 Weka 中的 K-means 处理标称属性的简单程度以及为什么它在处理此类属性时效率不高。
我读到它计算此类属性的模式。我想知道相似度是怎么计算的
举个例子: 考虑具有 3 个数值和一个标称属性的数据集。 名义属性有 3 个值:A、B 和 C。
Instance1 的值为 A,Instance2 的值为 B,Instance3 的值为 A。 在这种情况下,Instance1 可能更类似于 Instance3(当然取决于其他数字属性)。 Simple K-means 在这种情况下如何工作?
跟进: 如果名义属性有更多(10)个可能值怎么办?
您可以尝试将其转换为二进制特征,对于每个这样的标称属性,例如has_A, has_B, has_C
。然后,如果您对其进行缩放,i1 和 i3 将更接近,因为该属性的平均值将高于 0.5(以您的示例为例)- i2 将更加突出。
如果它有更多,那么你只需为每个可能的值添加更多的二元特征。基本上你只需旋转每个名义属性。