识别降低 R 中相关系数的行

Identify rows which are lowering the correlation coefficient in R

有一个数据集,如下三列,几千行。两列(销售额和订单)的相关系数为 0.68。

  empid  sales orders
1    A5  15000     25
2   B12  13500     21
3   A23  17000     23
4   D34  16200     30
5    C2  14000     22

如何获得对降低相关系数贡献最大的 100 行(可能的离群值)的列表。

我调用了你的数据框"emp"。

lm() 将生成影响度量,您可以使用其中任何一个,例如Cook's D,到select最分歧的台词。

m1<-lm(sales~orders,data=emp)
im<-as.data.frame(influence.measures(m1)$infmat)
im[order(im$cook.d,decreasing=T),][1:100,]