如何采样 data.frame 以最小化所选列之间的相关性?

How to sample a data.frame to minimise correlation between selected columns?

我正在尝试以一种方式对 data.frame 进行子采样,这样样本的观察结果会捕获原始 data.frame 的一组列中尽可能多的变化。

mtcars 数据集的一个示例:我想找到 3 辆在 mpgvscarb 方面最不同的汽车.目测数据,大概是丰田卡罗拉(高mpgvs1,低carb),凯迪拉克弗利特伍德(低mpgvs 0,中 carb) 和玛莎拉蒂宝来(中低 mpgvs 0,高 carb)或法拉利 Dino(中 mpgvs 0,中高 carb):

> mtcars[order(mtcars$mpg),]
                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1

我将如何以编程方式执行此操作,以便获得更小的 data.frame,例如

Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1

我在想这可能可以通过拉丁超立方体采样(lhs 包)来解决,但它似乎从给定的分布中产生潜在的数据点,而不是给出实际数据集的行索引。

此外,如果我们还想考虑一个无序的多级因子,例如一列 brand:

> mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))
> levels(mtcars$brand)
 [1] "AMC"      "Cadillac" "Camaro"   "Chrysler" "Datsun"   "Dodge"   
 [7] "Duster"   "Ferrari"  "Fiat"     "Ford"     "Honda"    "Hornet"  
[13] "Lincoln"  "Lotus"    "Maserati" "Mazda"    "Merc"     "Pontiac" 
[19] "Porsche"  "Toyota"   "Valiant"  "Volvo"

需要先分解成虚拟变量吗?

我不确定这是否是您要查找的内容,但它是这样的:

  1. 计算一个距离矩阵,根据它们拥有的所有属性(dist() 的默认值是 eucledian ,您可以更改)。

  2. 然后从该矩阵中获取行总和或列总和(相同的东西),它只是对每辆车求和到所有其他汽车的总距离。

  3. 然后隔离出距离最大的那些车(这里,我们要3辆车)

  4. 最终对您的数据框进行子集化以仅包含这些汽车:

distmat <- as.matrix(dist(df))
distances <- rowSums(distmat)
mostDistantCars <- tail(sort(distances), 3)
df2 <- subset(df, rownames(df) %in% names(mostDistantCars))

另一种方法是将汽车聚类,然后从您选择的集群中选择汽车:

  1. 计算距离矩阵,然后进行层次聚类。
  2. 绘制树状图
  3. 从您选择的集群中手动选择汽车
rowclust <- hclust(dist(df))

devtools::install_github("nicolash2/ggdendroplot")
library(ggdendroplot)
library(ggplot2)

ggplot() + geom_dendro(rowclust, pointing = "side", dendrocut = 20)
df2 <- subset(df, rownames(df) %in% "Maserati Bora")

编辑:树状图也是对我的包裹的一些无耻的自我推销。在我的 dendroplot github page.

查看它的所有选项

根据 Solarion 的想法,主成分分析可以用于此。使用第一个主成分和三列获得ncars辆汽车的代码是:

ncars = 3
df = mtcars[, c("mpg", "vs", "carb")]

PCA1 = prcomp(df, scale.=TRUE)$x[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#>                    mpg cyl  disp  hp drat    wt  qsec vs am gear carb    brand
#> Hornet Sportabout 18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2   Hornet
#> Toyota Corolla    33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1   Toyota
#> Maserati Bora     15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8 Maserati

reprex package (v1.0.0)

于 2021 年 3 月 17 日创建

对于更复杂的包含brand的情况,我们可以使用混合数据的因子分析:

library(FactoMineR)

mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))

ncars = 3
df = mtcars[, c("mpg", "vs", "carb", "brand")]

PCA1 = FAMD(df, graph=FALSE)$ind$coord[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#>                    mpg cyl  disp  hp drat    wt  qsec vs am gear carb    brand
#> Hornet Sportabout 18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2   Hornet
#> Toyota Corolla    33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1   Toyota
#> Maserati Bora     15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8 Maserati

reprex package (v1.0.0)

于 2021 年 3 月 17 日创建