使用 data.table R 选择行或列?
Selecting rows or columns with data.table R?
假设我有一个data.table,例如:
library(data.table)
RRR <-data.table(1:15,runif(15),rgeom(15,0.5),rbinom(15,2,0.5))
V1 V2 V3 V4
1: 1 0.33577273 0 0
2: 2 0.66739739 2 1
3: 3 0.07501655 0 0
4: 4 0.43195663 2 1
5: 5 0.39525841 3 2
6: 6 0.15189738 1 1
7: 7 0.02637279 0 1
8: 8 0.44165623 0 1
9: 9 0.98710570 2 0
10: 10 0.62402805 1 0
11: 11 0.84829465 3 2
12: 12 0.02170976 0 1
13: 13 0.74608925 0 2
14: 14 0.29102296 2 0
15: 15 0.83820646 1 1
我怎样才能从它得到一个 data.table,所有的行在任何列都包含一个“0”? (或一些价值)
如果我必须用一个列来做,我可以使用:
RRR[V4==0,]
V1 V2 V3 V4
1: 1 0.33577273 0 0
2: 3 0.07501655 0 0
3: 9 0.98710570 2 0
4: 10 0.62402805 1 0
5: 14 0.29102296 2 0
但是如果因为我有很多列而想一次处理所有列怎么办?
这不符合我的需要。
RRR[,sapply(RRR,function(xx)(xx==0)), with=TRUE]
V1 V2 V3 V4
[1,] FALSE FALSE TRUE TRUE
[2,] FALSE FALSE FALSE FALSE
[3,] FALSE FALSE TRUE TRUE
[4,] FALSE FALSE FALSE FALSE
[5,] FALSE FALSE FALSE FALSE
[6,] FALSE FALSE FALSE FALSE
[7,] FALSE FALSE TRUE FALSE
[8,] FALSE FALSE TRUE FALSE
[9,] FALSE FALSE FALSE TRUE
[10,] FALSE FALSE FALSE TRUE
[11,] FALSE FALSE FALSE FALSE
[12,] FALSE FALSE TRUE FALSE
[13,] FALSE FALSE TRUE FALSE
[14,] FALSE FALSE FALSE TRUE
[15,] FALSE FALSE FALSE FALSE
也许用 for 循环和一些复杂的粘贴?。
不过,我更愿意使用简单的 data.table 语法。
同样,您如何获得一个 data.table 并且所有列的任何行都包含“0”?
我知道如何获取满足条件的列(作为一个整体),例如数字,
RRR[,sapply(RRR,function(xx)is.numeric(xx)),with=FALSE]
但是如果我想按元素测试条件,这种方法就不起作用了。
如果有人感兴趣,这是更大随机 data.table 的 system.time(),使用您目前提供的不同解决方案,稍作修改。
set.seed(1)
n <- 1000000
RRR <- data.table(matrix(rgeom(100*n,0.5), ncol=100))
Getting ROWS
> RRR[RRR[,rowSums(RRR==0)>0]]
user system elapsed
2.72 0.55 3.27
> RRR[rowSums(RRR==0)>0]
user system elapsed
2.58 0.70 3.28
> RRR[apply(RRR,MAR=1,function(xx)any(xx==0))]
user system elapsed
10.81 0.19 11.00
> RRR[apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=1)]
user system elapsed
10.49 0.30 10.83
Getting COLUMNS
> RRR[,sapply(RRR,function(xx)any(xx==0)), with=FALSE]
user system elapsed
0.81 0.31 1.12
> `[.listof`(RRR,colSums(RRR==0)>0)
user system elapsed
2.14 0.27 2.41
> RRR[,colSums(RRR==0)>0, with=FALSE]
user system elapsed
2.26 0.48 2.75
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(x==0))] #only version 1.9.5, seems the same solution than the first one.
user system elapsed
0.78 0.36 1.14
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(!as.logical(x)))]
user system elapsed
0.41 0.25 0.66
> RRR[Reduce('|',lapply(RRR,function(xx)(xx==0)))]
user system elapsed
3.11 0.33 3.44
> RRR[,apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=2),with=FALSE]
user system elapsed
3.48 0.80 4.28
我还没有包括:
RRR[, i := any(unlist(lapply(.SD, function(x) x==0))), seq_len(nrow(RRR))][i==TRUE][,i:=NULL]
我花了几分钟才停止它,它 "tags" 行而不是提取它们,这是最复杂的解决方案。
我会等待更快或更简单的解决方案,并听取您的意见和喜好。
sapply 应该更慢,但事实并非如此。
如果 data.table 包含其他类型的数据,结果可能会改变。
如果我们可以在每一行或列中第一次出现时立即停止测试 (==0),我们可以加快速度。但我想我们不能没有循环或一些低级访问或按位操作来做到这一点。
我想到了一个新方法
- sapply(RRR,function(xx)which(xx==0))
- 我需要将 a) 的结果与列表并集相结合,但我不知道如何对任意数量的列执行此操作。
- 然后获取行 RRR["a)"]
我想如果零的数量很大,它会慢得多。
或许也可以试试 RRR[unique(unlist(sapply(RRR,function(xx)which(xx==0))))]
但是太慢了。
一个相反的选项是 RRR[(RRR==0)] <- NA; na.omit(RRR)
也许是这个。
library(data.table)
RRR <-data.table(1:15,runif(15),rgeom(15,0.5),rbinom(15,2,0.5))
RRR[, i := any(unlist(lapply(.SD, function(x) x==0))), seq_len(nrow(RRR))
][i==TRUE
][,i:=NULL]
扩展问题第二部分的答案。
RRR[, .SD, .SDcols=sapply(RRR, function(x) any(x==0))]
# you may add this one also to timing, I wonder how it will work
RRR[, .SD, .SDcols=sapply(RRR, function(x) any(!as.logical(x)))]
.SDcols
因为逻辑向量是最近才引入的,所以一定要先更新你的 data.table。
这里可以使用rowSums
函数:
RRR[rowSums(!RRR)>0]
工作原理: !RRR
是一个矩阵,其中 TRUE
为任意零。在一般情况下,您可以将 !RRR
替换为您要检查的任何逻辑条件。例如,要查看是否有任何元素等于 3
,您可以取 RRR==3
的 rowSums
。
我觉得rowSums(test(x))>0
和apply(RRR,1,function(x)any(!test(x)))
本质上是一样的;两者都将对象强制转换为矩阵。我发现 rowSums
版本更容易阅读,我想我听到人们称赞它的效率。
对于列,类似地:
RRR[, colSums(!RRR)>0, with=FALSE]
假设我有一个data.table,例如:
library(data.table)
RRR <-data.table(1:15,runif(15),rgeom(15,0.5),rbinom(15,2,0.5))
V1 V2 V3 V4
1: 1 0.33577273 0 0
2: 2 0.66739739 2 1
3: 3 0.07501655 0 0
4: 4 0.43195663 2 1
5: 5 0.39525841 3 2
6: 6 0.15189738 1 1
7: 7 0.02637279 0 1
8: 8 0.44165623 0 1
9: 9 0.98710570 2 0
10: 10 0.62402805 1 0
11: 11 0.84829465 3 2
12: 12 0.02170976 0 1
13: 13 0.74608925 0 2
14: 14 0.29102296 2 0
15: 15 0.83820646 1 1
我怎样才能从它得到一个 data.table,所有的行在任何列都包含一个“0”? (或一些价值)
如果我必须用一个列来做,我可以使用:
RRR[V4==0,]
V1 V2 V3 V4
1: 1 0.33577273 0 0
2: 3 0.07501655 0 0
3: 9 0.98710570 2 0
4: 10 0.62402805 1 0
5: 14 0.29102296 2 0
但是如果因为我有很多列而想一次处理所有列怎么办?
这不符合我的需要。
RRR[,sapply(RRR,function(xx)(xx==0)), with=TRUE]
V1 V2 V3 V4
[1,] FALSE FALSE TRUE TRUE
[2,] FALSE FALSE FALSE FALSE
[3,] FALSE FALSE TRUE TRUE
[4,] FALSE FALSE FALSE FALSE
[5,] FALSE FALSE FALSE FALSE
[6,] FALSE FALSE FALSE FALSE
[7,] FALSE FALSE TRUE FALSE
[8,] FALSE FALSE TRUE FALSE
[9,] FALSE FALSE FALSE TRUE
[10,] FALSE FALSE FALSE TRUE
[11,] FALSE FALSE FALSE FALSE
[12,] FALSE FALSE TRUE FALSE
[13,] FALSE FALSE TRUE FALSE
[14,] FALSE FALSE FALSE TRUE
[15,] FALSE FALSE FALSE FALSE
也许用 for 循环和一些复杂的粘贴?。 不过,我更愿意使用简单的 data.table 语法。
同样,您如何获得一个 data.table 并且所有列的任何行都包含“0”?
我知道如何获取满足条件的列(作为一个整体),例如数字,
RRR[,sapply(RRR,function(xx)is.numeric(xx)),with=FALSE]
但是如果我想按元素测试条件,这种方法就不起作用了。
如果有人感兴趣,这是更大随机 data.table 的 system.time(),使用您目前提供的不同解决方案,稍作修改。
set.seed(1)
n <- 1000000
RRR <- data.table(matrix(rgeom(100*n,0.5), ncol=100))
Getting ROWS
> RRR[RRR[,rowSums(RRR==0)>0]]
user system elapsed
2.72 0.55 3.27
> RRR[rowSums(RRR==0)>0]
user system elapsed
2.58 0.70 3.28
> RRR[apply(RRR,MAR=1,function(xx)any(xx==0))]
user system elapsed
10.81 0.19 11.00
> RRR[apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=1)]
user system elapsed
10.49 0.30 10.83
Getting COLUMNS
> RRR[,sapply(RRR,function(xx)any(xx==0)), with=FALSE]
user system elapsed
0.81 0.31 1.12
> `[.listof`(RRR,colSums(RRR==0)>0)
user system elapsed
2.14 0.27 2.41
> RRR[,colSums(RRR==0)>0, with=FALSE]
user system elapsed
2.26 0.48 2.75
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(x==0))] #only version 1.9.5, seems the same solution than the first one.
user system elapsed
0.78 0.36 1.14
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(!as.logical(x)))]
user system elapsed
0.41 0.25 0.66
> RRR[Reduce('|',lapply(RRR,function(xx)(xx==0)))]
user system elapsed
3.11 0.33 3.44
> RRR[,apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=2),with=FALSE]
user system elapsed
3.48 0.80 4.28
我还没有包括:
RRR[, i := any(unlist(lapply(.SD, function(x) x==0))), seq_len(nrow(RRR))][i==TRUE][,i:=NULL]
我花了几分钟才停止它,它 "tags" 行而不是提取它们,这是最复杂的解决方案。
我会等待更快或更简单的解决方案,并听取您的意见和喜好。
sapply 应该更慢,但事实并非如此。 如果 data.table 包含其他类型的数据,结果可能会改变。
如果我们可以在每一行或列中第一次出现时立即停止测试 (==0),我们可以加快速度。但我想我们不能没有循环或一些低级访问或按位操作来做到这一点。
我想到了一个新方法
- sapply(RRR,function(xx)which(xx==0))
- 我需要将 a) 的结果与列表并集相结合,但我不知道如何对任意数量的列执行此操作。
- 然后获取行 RRR["a)"]
我想如果零的数量很大,它会慢得多。
或许也可以试试 RRR[unique(unlist(sapply(RRR,function(xx)which(xx==0))))]
但是太慢了。
一个相反的选项是 RRR[(RRR==0)] <- NA; na.omit(RRR)
也许是这个。
library(data.table)
RRR <-data.table(1:15,runif(15),rgeom(15,0.5),rbinom(15,2,0.5))
RRR[, i := any(unlist(lapply(.SD, function(x) x==0))), seq_len(nrow(RRR))
][i==TRUE
][,i:=NULL]
扩展问题第二部分的答案。
RRR[, .SD, .SDcols=sapply(RRR, function(x) any(x==0))]
# you may add this one also to timing, I wonder how it will work
RRR[, .SD, .SDcols=sapply(RRR, function(x) any(!as.logical(x)))]
.SDcols
因为逻辑向量是最近才引入的,所以一定要先更新你的 data.table。
这里可以使用rowSums
函数:
RRR[rowSums(!RRR)>0]
工作原理: !RRR
是一个矩阵,其中 TRUE
为任意零。在一般情况下,您可以将 !RRR
替换为您要检查的任何逻辑条件。例如,要查看是否有任何元素等于 3
,您可以取 RRR==3
的 rowSums
。
我觉得rowSums(test(x))>0
和apply(RRR,1,function(x)any(!test(x)))
本质上是一样的;两者都将对象强制转换为矩阵。我发现 rowSums
版本更容易阅读,我想我听到人们称赞它的效率。
对于列,类似地:
RRR[, colSums(!RRR)>0, with=FALSE]