我怎样才能找出有多少样本损失 > 中值损失;以及在 R 中使用层次聚类有多少损失

How could I find out how many samples with loss > the median loss; and how many with loss using hierarchical clustering in R

我怎样才能找出有多少样本损失大于中值损失;以及在 R 中使用层次聚类有多少损失。 我正在使用数据集 Allstate 索赔严重性,我认为数字属性已标准化,它们的值介于 0 和 1

之间

这是我的代码:

claims<-read.csv("train.csv")
idx<-sample(1:dim(claims)[1],10000) #10000 random samples
claimsSample<-claims[idx,118:131] #retrieve the numeric features
distances<-dist(claimsSample,method="euclidean")
clusterClaims<-hclust(distances, method = "ward.D")
plot(clusterClaims)
clusterGroups<- cutree(clusterClaims,k=9)

那么,我如何找到中位数和样本???

您实际上应该提供示例数据集,或将其他 SO 用户引导至感兴趣的数据集。 "loss" 可能意味着很多事情...

所以我们可以尝试这样的事情:

#claims = read.csv("https://raw.githubusercontent.com/Architectshwet/Allstate-Claims-Severity-Data/master/Datasets/train.csv")
set.seed(111)
idx<-sample(nrow(claims),10000) 
claimsSample<-claims[idx,118:131] 
distances<-dist(claimsSample,method="euclidean")
clusterClaims<-hclust(distances, method = "ward.D")
clusterGroups<- cutree(clusterClaims,k=9)

clusterGroups 标签的顺序与您的行相同,因此下面我得到一个向量 (TRUE/FALSE),表示您的 claimsSample 中的观察值是否大于 claimsSample 中的中值,并且 table 它根据组:

results = table(clusterGroups,claims$loss[idx] > median(claims$loss[idx]))

clusterGroups FALSE TRUE
            1   816  621
            2   691  687
            3   405  382
            4   886 1055
            5   493  499
            6   249  256
            7   462  481
            8   530  502
            9   468  517