R - 从数据框中剪切数据以平衡它
R - cut data from data frame to balance it
我有一个包含 2600 个条目的数据框,这些条目分布在 249 个因子水平(人)中。数据集不平衡。
我想删除在一个因素中出现次数少于 5 次的所有条目。我也想 trim 那些出现次数超过 5 次的数据减少到 5 次。所以最后我想要一个数据框,整体条目较少,但在因素人身上是平衡的。
数据集构建如下:
file_list <- list.files("path/to/image/folder", full.names=TRUE)
# the folder contains 2600 images, which include information about the
# person factor in their file name
file_names <- sapply(strsplit(file_list , split = '_'), "[", 1)
person_list <- substr(file_names, 1 ,3)
person_class <- as.factor(person_list)
imageWidth = 320; # uniform pixel width of all images
imageHeight = 280; # uniform pixel height of all images
variableCount = imageHeight * imageWidth + 2
images <- as.data.frame(matrix(seq(count),nrow=count,ncol=variableCount ))
images[1] <- person_class
images[2] <- eyepos_class
for(i in 1:count) {
img <- readJPEG(file_list[i])
image <- c(img)
images[i, 3:variableCount] <- image
}
所以基本上我需要获得每个因子级别的样本量(比如使用 summary(images[1])
时,然后对 trim 数据集执行操作。
我真的不知道如何从这里开始,感谢任何帮助
使用dplyr
:
library(dplyr)
group_by(images, V1) %>% # group by the V1 column
filter(n() >= 5) %>% # keep only groups with 5 or more rows
slice(1:5) # keep only the first 5 rows in each group
您可以像往常一样将结果分配给一个对象。例如my_desired_result = group_by(images, ...
一个选项使用data.table
library(data.table)
res <- setDT(images)[, if(.N > = 5) head(.SD, 5) , by = V1]
我有一个包含 2600 个条目的数据框,这些条目分布在 249 个因子水平(人)中。数据集不平衡。
我想删除在一个因素中出现次数少于 5 次的所有条目。我也想 trim 那些出现次数超过 5 次的数据减少到 5 次。所以最后我想要一个数据框,整体条目较少,但在因素人身上是平衡的。
数据集构建如下:
file_list <- list.files("path/to/image/folder", full.names=TRUE)
# the folder contains 2600 images, which include information about the
# person factor in their file name
file_names <- sapply(strsplit(file_list , split = '_'), "[", 1)
person_list <- substr(file_names, 1 ,3)
person_class <- as.factor(person_list)
imageWidth = 320; # uniform pixel width of all images
imageHeight = 280; # uniform pixel height of all images
variableCount = imageHeight * imageWidth + 2
images <- as.data.frame(matrix(seq(count),nrow=count,ncol=variableCount ))
images[1] <- person_class
images[2] <- eyepos_class
for(i in 1:count) {
img <- readJPEG(file_list[i])
image <- c(img)
images[i, 3:variableCount] <- image
}
所以基本上我需要获得每个因子级别的样本量(比如使用 summary(images[1])
时,然后对 trim 数据集执行操作。
我真的不知道如何从这里开始,感谢任何帮助
使用dplyr
:
library(dplyr)
group_by(images, V1) %>% # group by the V1 column
filter(n() >= 5) %>% # keep only groups with 5 or more rows
slice(1:5) # keep only the first 5 rows in each group
您可以像往常一样将结果分配给一个对象。例如my_desired_result = group_by(images, ...
一个选项使用data.table
library(data.table)
res <- setDT(images)[, if(.N > = 5) head(.SD, 5) , by = V1]