如何采样 data.frame 以最小化所选列之间的相关性?
How to sample a data.frame to minimise correlation between selected columns?
我正在尝试以一种方式对 data.frame 进行子采样,这样样本的观察结果会捕获原始 data.frame 的一组列中尽可能多的变化。
mtcars
数据集的一个示例:我想找到 3 辆在 mpg
、vs
和 carb
方面最不同的汽车.目测数据,大概是丰田卡罗拉(高mpg
,vs
1,低carb
),凯迪拉克弗利特伍德(低mpg
,vs
0,中 carb
) 和玛莎拉蒂宝来(中低 mpg
,vs
0,高 carb
)或法拉利 Dino(中 mpg
,vs
0,中高 carb
):
> mtcars[order(mtcars$mpg),]
mpg cyl disp hp drat wt qsec vs am gear carb
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
我将如何以编程方式执行此操作,以便获得更小的 data.frame,例如
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
我在想这可能可以通过拉丁超立方体采样(lhs
包)来解决,但它似乎从给定的分布中产生潜在的数据点,而不是给出实际数据集的行索引。
此外,如果我们还想考虑一个无序的多级因子,例如一列 brand
:
> mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))
> levels(mtcars$brand)
[1] "AMC" "Cadillac" "Camaro" "Chrysler" "Datsun" "Dodge"
[7] "Duster" "Ferrari" "Fiat" "Ford" "Honda" "Hornet"
[13] "Lincoln" "Lotus" "Maserati" "Mazda" "Merc" "Pontiac"
[19] "Porsche" "Toyota" "Valiant" "Volvo"
需要先分解成虚拟变量吗?
我不确定这是否是您要查找的内容,但它是这样的:
计算一个距离矩阵,根据它们拥有的所有属性(dist()
的默认值是 eucledian ,您可以更改)。
然后从该矩阵中获取行总和或列总和(相同的东西),它只是对每辆车求和到所有其他汽车的总距离。
然后隔离出距离最大的那些车(这里,我们要3辆车)
最终对您的数据框进行子集化以仅包含这些汽车:
distmat <- as.matrix(dist(df))
distances <- rowSums(distmat)
mostDistantCars <- tail(sort(distances), 3)
df2 <- subset(df, rownames(df) %in% names(mostDistantCars))
另一种方法是将汽车聚类,然后从您选择的集群中选择汽车:
- 计算距离矩阵,然后进行层次聚类。
- 绘制树状图
- 从您选择的集群中手动选择汽车
rowclust <- hclust(dist(df))
devtools::install_github("nicolash2/ggdendroplot")
library(ggdendroplot)
library(ggplot2)
ggplot() + geom_dendro(rowclust, pointing = "side", dendrocut = 20)
df2 <- subset(df, rownames(df) %in% "Maserati Bora")
编辑:树状图也是对我的包裹的一些无耻的自我推销。在我的 dendroplot github page.
查看它的所有选项
根据 Solarion 的想法,主成分分析可以用于此。使用第一个主成分和三列获得ncars
辆汽车的代码是:
ncars = 3
df = mtcars[, c("mpg", "vs", "carb")]
PCA1 = prcomp(df, scale.=TRUE)$x[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#> mpg cyl disp hp drat wt qsec vs am gear carb brand
#> Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Hornet
#> Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota
#> Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Maserati
由 reprex package (v1.0.0)
于 2021 年 3 月 17 日创建
对于更复杂的包含brand
的情况,我们可以使用混合数据的因子分析:
library(FactoMineR)
mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))
ncars = 3
df = mtcars[, c("mpg", "vs", "carb", "brand")]
PCA1 = FAMD(df, graph=FALSE)$ind$coord[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#> mpg cyl disp hp drat wt qsec vs am gear carb brand
#> Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Hornet
#> Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota
#> Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Maserati
由 reprex package (v1.0.0)
于 2021 年 3 月 17 日创建
我正在尝试以一种方式对 data.frame 进行子采样,这样样本的观察结果会捕获原始 data.frame 的一组列中尽可能多的变化。
mtcars
数据集的一个示例:我想找到 3 辆在 mpg
、vs
和 carb
方面最不同的汽车.目测数据,大概是丰田卡罗拉(高mpg
,vs
1,低carb
),凯迪拉克弗利特伍德(低mpg
,vs
0,中 carb
) 和玛莎拉蒂宝来(中低 mpg
,vs
0,高 carb
)或法拉利 Dino(中 mpg
,vs
0,中高 carb
):
> mtcars[order(mtcars$mpg),]
mpg cyl disp hp drat wt qsec vs am gear carb
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
我将如何以编程方式执行此操作,以便获得更小的 data.frame,例如
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
我在想这可能可以通过拉丁超立方体采样(lhs
包)来解决,但它似乎从给定的分布中产生潜在的数据点,而不是给出实际数据集的行索引。
此外,如果我们还想考虑一个无序的多级因子,例如一列 brand
:
> mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))
> levels(mtcars$brand)
[1] "AMC" "Cadillac" "Camaro" "Chrysler" "Datsun" "Dodge"
[7] "Duster" "Ferrari" "Fiat" "Ford" "Honda" "Hornet"
[13] "Lincoln" "Lotus" "Maserati" "Mazda" "Merc" "Pontiac"
[19] "Porsche" "Toyota" "Valiant" "Volvo"
需要先分解成虚拟变量吗?
我不确定这是否是您要查找的内容,但它是这样的:
计算一个距离矩阵,根据它们拥有的所有属性(
dist()
的默认值是 eucledian ,您可以更改)。然后从该矩阵中获取行总和或列总和(相同的东西),它只是对每辆车求和到所有其他汽车的总距离。
然后隔离出距离最大的那些车(这里,我们要3辆车)
最终对您的数据框进行子集化以仅包含这些汽车:
distmat <- as.matrix(dist(df)) distances <- rowSums(distmat) mostDistantCars <- tail(sort(distances), 3) df2 <- subset(df, rownames(df) %in% names(mostDistantCars))
另一种方法是将汽车聚类,然后从您选择的集群中选择汽车:
- 计算距离矩阵,然后进行层次聚类。
- 绘制树状图
- 从您选择的集群中手动选择汽车
rowclust <- hclust(dist(df)) devtools::install_github("nicolash2/ggdendroplot") library(ggdendroplot) library(ggplot2) ggplot() + geom_dendro(rowclust, pointing = "side", dendrocut = 20) df2 <- subset(df, rownames(df) %in% "Maserati Bora")
编辑:树状图也是对我的包裹的一些无耻的自我推销。在我的 dendroplot github page.
查看它的所有选项根据 Solarion 的想法,主成分分析可以用于此。使用第一个主成分和三列获得ncars
辆汽车的代码是:
ncars = 3
df = mtcars[, c("mpg", "vs", "carb")]
PCA1 = prcomp(df, scale.=TRUE)$x[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#> mpg cyl disp hp drat wt qsec vs am gear carb brand
#> Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Hornet
#> Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota
#> Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Maserati
由 reprex package (v1.0.0)
于 2021 年 3 月 17 日创建对于更复杂的包含brand
的情况,我们可以使用混合数据的因子分析:
library(FactoMineR)
mtcars$brand = factor(sapply(strsplit(rownames(mtcars), " "), function(x)x[[1]]))
ncars = 3
df = mtcars[, c("mpg", "vs", "carb", "brand")]
PCA1 = FAMD(df, graph=FALSE)$ind$coord[,1]
ResultRows = sort(PCA1)[ceiling(seq(1, length(PCA1), length.out=ncars))]
mtcars[rownames(mtcars) %in% names(ResultRows),]
#> mpg cyl disp hp drat wt qsec vs am gear carb brand
#> Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Hornet
#> Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota
#> Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Maserati
由 reprex package (v1.0.0)
于 2021 年 3 月 17 日创建