R:使用 doParallel 和 foreach 进行并行化
R: Parallelization with doParallel and foreach
我在 R 中制作了以下顺序迷你示例:
all_list <- list()
all_list[1] <- list(1:6000)
all_list[2] <- list(100000:450000)
all_list[3] <- list(600000:1700000)
all_list[4] <- list(2000000:3300000)
all_list[5] <- list(3600000:5000000)
find <- list(c(12800, 12800, 12800, 25600, 51200, 102400, 204800, 409600, 819200, 1638400, 1638400, 2457600, 3276800, 4096000, 4915200, 4915200))
result <- list()
index <- 1
current_Intervall <- 1
current_number <- 1
while(current_number <= 5000000){
for(i in 1:length(find[[1]])){
if(current_number == find[[1]][i]){
result[[index]] <- current_number
index <- index + 1
break
}
}
current_number <- current_number + 1
last <- lengths(all_list[current_Intervall])
if(current_number > all_list[[current_Intervall]][last]){
if(current_Intervall == length(all_list)){
break
}else{
current_Intervall <- current_Intervall + 1
current_number <- all_list[[current_Intervall]][1]
}
}
print(current_number)
}
我想让这段代码与 Windows 并行。我想到了 doParallel 包和 foreach 循环,因为我没有找到支持并行 while 循环的包。现在我试过了:
library(doParallel)
all_list <- list()
all_list[1] <- list(1:6000)
all_list[2] <- list(100000:450000)
all_list[3] <- list(600000:1700000)
all_list[4] <- list(2000000:3300000)
all_list[5] <- list(3600000:5000000)
find <- list(c(12800, 12800, 12800, 25600, 51200, 102400, 204800, 409600, 819200, 1638400, 1638400, 2457600, 3276800, 4096000, 4915200, 4915200))
result <- list()
index <- 1
current_Intervall <- 1
current_number <- 1
no_cores <- detectCores() - 1
cl <- makeCluster(no_cores)
registerDoParallel(cl)
print(current_number)
foreach(current_number=1:5000000) %dopar% {
for(i in 1:length(find[[1]])){
if(current_number == find[[1]][i]){
result[[index]] <- current_number
index <- index + 1
break
}
}
# current_number <- current_number + 1
last <- lengths(all_list[current_Intervall])
if(current_number > all_list[[current_Intervall]][last]){
if(current_Intervall == length(all_list)){
break
}else{
current_Intervall <- current_Intervall + 1
current_number <- all_list[[current_Intervall]][1]
}
}
print(current_number)
}
stopCluster(cl)
但是打印输出没有打印任何东西,大约 2 分钟后循环没有终止。但顺序示例在几秒钟后成立。我觉得有问题。
另一个问题是:是否可以在 foreach 循环中重新定义计数器编号?在上面的 while 循环中,我可以任意设置计数器 "current_number"。但我认为在 R 中,for 循环不允许重新定义计数器编号,对吗?是否有更好的包或替代循环来并行化第一个示例?
此致,
布雷恩
如果你想在使用并行时输出一些东西,使用makeCluster(no_cores, outfile = "")
。
我在 R 中制作了以下顺序迷你示例:
all_list <- list()
all_list[1] <- list(1:6000)
all_list[2] <- list(100000:450000)
all_list[3] <- list(600000:1700000)
all_list[4] <- list(2000000:3300000)
all_list[5] <- list(3600000:5000000)
find <- list(c(12800, 12800, 12800, 25600, 51200, 102400, 204800, 409600, 819200, 1638400, 1638400, 2457600, 3276800, 4096000, 4915200, 4915200))
result <- list()
index <- 1
current_Intervall <- 1
current_number <- 1
while(current_number <= 5000000){
for(i in 1:length(find[[1]])){
if(current_number == find[[1]][i]){
result[[index]] <- current_number
index <- index + 1
break
}
}
current_number <- current_number + 1
last <- lengths(all_list[current_Intervall])
if(current_number > all_list[[current_Intervall]][last]){
if(current_Intervall == length(all_list)){
break
}else{
current_Intervall <- current_Intervall + 1
current_number <- all_list[[current_Intervall]][1]
}
}
print(current_number)
}
我想让这段代码与 Windows 并行。我想到了 doParallel 包和 foreach 循环,因为我没有找到支持并行 while 循环的包。现在我试过了:
library(doParallel)
all_list <- list()
all_list[1] <- list(1:6000)
all_list[2] <- list(100000:450000)
all_list[3] <- list(600000:1700000)
all_list[4] <- list(2000000:3300000)
all_list[5] <- list(3600000:5000000)
find <- list(c(12800, 12800, 12800, 25600, 51200, 102400, 204800, 409600, 819200, 1638400, 1638400, 2457600, 3276800, 4096000, 4915200, 4915200))
result <- list()
index <- 1
current_Intervall <- 1
current_number <- 1
no_cores <- detectCores() - 1
cl <- makeCluster(no_cores)
registerDoParallel(cl)
print(current_number)
foreach(current_number=1:5000000) %dopar% {
for(i in 1:length(find[[1]])){
if(current_number == find[[1]][i]){
result[[index]] <- current_number
index <- index + 1
break
}
}
# current_number <- current_number + 1
last <- lengths(all_list[current_Intervall])
if(current_number > all_list[[current_Intervall]][last]){
if(current_Intervall == length(all_list)){
break
}else{
current_Intervall <- current_Intervall + 1
current_number <- all_list[[current_Intervall]][1]
}
}
print(current_number)
}
stopCluster(cl)
但是打印输出没有打印任何东西,大约 2 分钟后循环没有终止。但顺序示例在几秒钟后成立。我觉得有问题。
另一个问题是:是否可以在 foreach 循环中重新定义计数器编号?在上面的 while 循环中,我可以任意设置计数器 "current_number"。但我认为在 R 中,for 循环不允许重新定义计数器编号,对吗?是否有更好的包或替代循环来并行化第一个示例?
此致, 布雷恩
如果你想在使用并行时输出一些东西,使用makeCluster(no_cores, outfile = "")
。