识别降低 R 中相关系数的行
Identify rows which are lowering the correlation coefficient in R
有一个数据集,如下三列,几千行。两列(销售额和订单)的相关系数为 0.68。
empid sales orders
1 A5 15000 25
2 B12 13500 21
3 A23 17000 23
4 D34 16200 30
5 C2 14000 22
如何获得对降低相关系数贡献最大的 100 行(可能的离群值)的列表。
我调用了你的数据框"emp"。
lm() 将生成影响度量,您可以使用其中任何一个,例如Cook's D,到select最分歧的台词。
m1<-lm(sales~orders,data=emp)
im<-as.data.frame(influence.measures(m1)$infmat)
im[order(im$cook.d,decreasing=T),][1:100,]
有一个数据集,如下三列,几千行。两列(销售额和订单)的相关系数为 0.68。
empid sales orders
1 A5 15000 25
2 B12 13500 21
3 A23 17000 23
4 D34 16200 30
5 C2 14000 22
如何获得对降低相关系数贡献最大的 100 行(可能的离群值)的列表。
我调用了你的数据框"emp"。
lm() 将生成影响度量,您可以使用其中任何一个,例如Cook's D,到select最分歧的台词。
m1<-lm(sales~orders,data=emp)
im<-as.data.frame(influence.measures(m1)$infmat)
im[order(im$cook.d,decreasing=T),][1:100,]