mclapply 的不当用例?
improper use case of mclapply?
我一直在安装 linux mint (debian) 的旧笔记本电脑上玩 rstudio 服务器。
我总是 运行 windows,所以我从来没有利用过 parallel
或 multicore
包,我的目标是学习 rstudio server
以及 R linux
以及多核处理如何加速我的进程。
我每天使用的 lapply 的一个主要用途是这样的:
f <- function(x) {
x1 <- data[1:50, x]
x2 <- data[51:100, x]
line <- c(paste0(mean(x1), " (", sd(x1), ")"),
paste0(mean(x2), " (", sd(x2), ")"),
t.test(x1, x2)$p.value)
return(line)
}
data <- data.frame(matrix(rnorm(2600, 85, 19), nrow=100, ncol=26))
names(data) <- letters
do.call(rbind, lapply(letters, f))
microbenchmark(
do.call(rbind, lapply(letters, f))
)
中位时间为 21.8
毫秒
或者:
library(parallel)
microbenchmark(
do.call(rbind, mclapply(letters, f))
)
中位时间为 120.9
毫秒。
为什么会有这么大的差异?
机器是2核恐龙。是不是在使用 >= 4 核机器之前看不到好处?我的用例(data.frame 的按列计算)是否不适合查看收益?
谢谢!
你的数据太小了,有利于对抗开销,试试
f <- function(x) {
x1 <- data[1:50000, x]
x2 <- data[50001:100000, x]
line <- c(paste0(mean(x1), " (", sd(x1), ")"),
paste0(mean(x2), " (", sd(x2), ")"),
t.test(x1, x2)$p.value)
return(line)
}
data <- data.frame(matrix(rnorm(2600, 85, 19), nrow=100000, ncol=26))
而是检查结果。您的示例花费了我的笔记本电脑 7 和 17 毫秒的中位数,但我更大的示例将其更改为 120 和 80。所以在我看来,它(不仅)是内核的数量,而且在这种情况下更多的是数据的大小。
我一直在安装 linux mint (debian) 的旧笔记本电脑上玩 rstudio 服务器。
我总是 运行 windows,所以我从来没有利用过 parallel
或 multicore
包,我的目标是学习 rstudio server
以及 R linux
以及多核处理如何加速我的进程。
我每天使用的 lapply 的一个主要用途是这样的:
f <- function(x) {
x1 <- data[1:50, x]
x2 <- data[51:100, x]
line <- c(paste0(mean(x1), " (", sd(x1), ")"),
paste0(mean(x2), " (", sd(x2), ")"),
t.test(x1, x2)$p.value)
return(line)
}
data <- data.frame(matrix(rnorm(2600, 85, 19), nrow=100, ncol=26))
names(data) <- letters
do.call(rbind, lapply(letters, f))
microbenchmark(
do.call(rbind, lapply(letters, f))
)
中位时间为 21.8
毫秒
或者:
library(parallel)
microbenchmark(
do.call(rbind, mclapply(letters, f))
)
中位时间为 120.9
毫秒。
为什么会有这么大的差异?
机器是2核恐龙。是不是在使用 >= 4 核机器之前看不到好处?我的用例(data.frame 的按列计算)是否不适合查看收益?
谢谢!
你的数据太小了,有利于对抗开销,试试
f <- function(x) {
x1 <- data[1:50000, x]
x2 <- data[50001:100000, x]
line <- c(paste0(mean(x1), " (", sd(x1), ")"),
paste0(mean(x2), " (", sd(x2), ")"),
t.test(x1, x2)$p.value)
return(line)
}
data <- data.frame(matrix(rnorm(2600, 85, 19), nrow=100000, ncol=26))
而是检查结果。您的示例花费了我的笔记本电脑 7 和 17 毫秒的中位数,但我更大的示例将其更改为 120 和 80。所以在我看来,它(不仅)是内核的数量,而且在这种情况下更多的是数据的大小。