for 循环的更快替代方案
Faster Alternatives for for-loop
我遇到以下问题:
我的数据框如下所示,尽管它更大 (20GB):
Letters <- c("A","B","C")
Numbers <- c(1,0,1)
Numbers <- as.integer(Numbers)
Data.Frame <- data.frame(Letters,Numbers)
现在我想为字母创建一个虚拟变量并编写以下 for 循环:
for(level in unique(Data.Frame$Letters)){Data.Frame[paste("", level, sep = "")]
<- ifelse(Data.Frame$Letters == level, 1, 0)}
因为我的 Data-frame 太大了,虽然它需要很长时间才能执行。我尝试的另一种可能的解决方案是:
factors <- model.matrix(~Letters-1, data=Data.Frame)
cbind(Data.Frame, factors)
结果是一样的,但是当我在更大的数据框上使用它时,它需要更长的时间。
是否有任何可能的替代方案,它们会产生相同的解决方案并且计算速度更快?
非常感谢您!
使用 data.table
可能会更快?
怎么样
Letters <- c("A","B","C","C")
Numbers <- c(1,0,1,2)
Numbers <- as.integer(Numbers)
Data.Frame <- data.frame(Letters,Numbers)
library(data.table)
DT <- as.data.table(Data.Frame)
Letters <- unique(DT$Letters)
for(l in Letters){
DT[, (l):=as.integer(Letters==l)]
}
> DT
Letters Numbers A B C
1: A 1 1 0 0
2: B 0 0 1 0
3: C 1 0 0 1
4: C 2 0 0 1
如果你有足够的 RAM,你可以试试这个:
n <- 18e6
set.seed(31)
d <- data.frame(Letters = as.factor(sample.int(1.3e4, n, replace = T)),
Numbers = sample.int(30, n, replace = T))
require(data.table)
dt <- as.data.table(d)
x2 <- as.integer(dt$Letters)
ilist <- unique(x2)[1:20] # for test 20 cols
for (i in ilist) {
set(dt, j = as.character(i), value = (x2 == i) + 0L)
}
否则你应该按照其他用户的建议使用稀疏矩阵:
require(Matrix)
dd <- sparse.model.matrix(~ Letters - 1, data = d)
dd[1:5, 1:5]
# 5 x 5 sparse Matrix of class "dgCMatrix"
# Letters1 Letters2 Letters3 Letters4 Letters5
# 1 . . . . .
# 2 . . . . .
# 3 . . . . .
# 4 . . . . .
# 5 . . . . .
您可以像这样使用包 data.table
中的 dcast.data.table
dt <- data.table(Letters,Numbers)
dcast.data.table(dt, Letters+Numbers~Letters,fun.aggregate=length)
Letters Numbers A B C
1: A 1 1 0 0
2: B 0 0 1 0
3: C 1 0 0 1
我遇到以下问题:
我的数据框如下所示,尽管它更大 (20GB):
Letters <- c("A","B","C")
Numbers <- c(1,0,1)
Numbers <- as.integer(Numbers)
Data.Frame <- data.frame(Letters,Numbers)
现在我想为字母创建一个虚拟变量并编写以下 for 循环:
for(level in unique(Data.Frame$Letters)){Data.Frame[paste("", level, sep = "")]
<- ifelse(Data.Frame$Letters == level, 1, 0)}
因为我的 Data-frame 太大了,虽然它需要很长时间才能执行。我尝试的另一种可能的解决方案是:
factors <- model.matrix(~Letters-1, data=Data.Frame)
cbind(Data.Frame, factors)
结果是一样的,但是当我在更大的数据框上使用它时,它需要更长的时间。
是否有任何可能的替代方案,它们会产生相同的解决方案并且计算速度更快?
非常感谢您!
使用 data.table
可能会更快?
怎么样
Letters <- c("A","B","C","C")
Numbers <- c(1,0,1,2)
Numbers <- as.integer(Numbers)
Data.Frame <- data.frame(Letters,Numbers)
library(data.table)
DT <- as.data.table(Data.Frame)
Letters <- unique(DT$Letters)
for(l in Letters){
DT[, (l):=as.integer(Letters==l)]
}
> DT
Letters Numbers A B C
1: A 1 1 0 0
2: B 0 0 1 0
3: C 1 0 0 1
4: C 2 0 0 1
如果你有足够的 RAM,你可以试试这个:
n <- 18e6
set.seed(31)
d <- data.frame(Letters = as.factor(sample.int(1.3e4, n, replace = T)),
Numbers = sample.int(30, n, replace = T))
require(data.table)
dt <- as.data.table(d)
x2 <- as.integer(dt$Letters)
ilist <- unique(x2)[1:20] # for test 20 cols
for (i in ilist) {
set(dt, j = as.character(i), value = (x2 == i) + 0L)
}
否则你应该按照其他用户的建议使用稀疏矩阵:
require(Matrix)
dd <- sparse.model.matrix(~ Letters - 1, data = d)
dd[1:5, 1:5]
# 5 x 5 sparse Matrix of class "dgCMatrix"
# Letters1 Letters2 Letters3 Letters4 Letters5
# 1 . . . . .
# 2 . . . . .
# 3 . . . . .
# 4 . . . . .
# 5 . . . . .
您可以像这样使用包 data.table
中的 dcast.data.table
dt <- data.table(Letters,Numbers)
dcast.data.table(dt, Letters+Numbers~Letters,fun.aggregate=length)
Letters Numbers A B C
1: A 1 1 0 0
2: B 0 0 1 0
3: C 1 0 0 1