如何使 purrr 地图函数 运行 更快?
How to make purrr map function run faster?
我正在使用 purrr
库中的 map
函数来应用 segmented
函数(来自 segmented
库),如下所示:
library(purrr)
library(dplyr)
library(segmented)
# Data frame is nested to create list column
by_veh28_101 <- df101 %>%
filter(LCType=="CFonly", Lane %in% c(1,2,3)) %>%
group_by(Vehicle.ID2) %>%
nest() %>%
ungroup()
# Functions:
segf2 <- function(df){
try(segmented(lm(svel ~ Time, data=df), seg.Z = ~Time,
psi = list(Time = df$Time[which(df$dssvel != 0)]),
control = seg.control(seed=2)),
silent=TRUE)
}
segf2p <- function(df){
try(segmented(lm(PrecVehVel ~ Time, data=df), seg.Z = ~Time,
psi = list(Time = df$Time[which(df$dspsvel != 0)]),
control = seg.control(seed=2)),
silent=TRUE)
}
# map function:
models8_101 <- by_veh28_101 %>%
mutate(segs = map(data, segf2),
segsp = map(data, segf2p))
对象 by_veh28_101
包含 2457 tibbles
。最后一步,使用 map
函数,需要 16 分钟才能完成。有什么方法可以让它更快吗?
您可以使用函数 future_map
而不是 map
。
此函数来自包 furrr
,是 map
系列的并行选项。这里是包的 README 的 link。
由于您的代码问题不可重现,我无法准备 map
和 future_map
函数之间的基准测试。
您使用 future_map
函数的代码如下:
library(tidyverse)
library(segmented)
library(furrr)
# Data frame stuff....
# Your functions....
# future_map function
# this distribute over the different cores of your computer
# You set a "plan" for how the code should run. The easiest is `multiprocess`
# On Mac this picks plan(multicore) and on Windows this picks plan(multisession)
plan(strategy = multiprocess)
models8_101 <- by_veh28_101 %>%
mutate(segs = future_map(data, segf2),
segsp = future_map(data, segf2p))
我正在使用 purrr
库中的 map
函数来应用 segmented
函数(来自 segmented
库),如下所示:
library(purrr)
library(dplyr)
library(segmented)
# Data frame is nested to create list column
by_veh28_101 <- df101 %>%
filter(LCType=="CFonly", Lane %in% c(1,2,3)) %>%
group_by(Vehicle.ID2) %>%
nest() %>%
ungroup()
# Functions:
segf2 <- function(df){
try(segmented(lm(svel ~ Time, data=df), seg.Z = ~Time,
psi = list(Time = df$Time[which(df$dssvel != 0)]),
control = seg.control(seed=2)),
silent=TRUE)
}
segf2p <- function(df){
try(segmented(lm(PrecVehVel ~ Time, data=df), seg.Z = ~Time,
psi = list(Time = df$Time[which(df$dspsvel != 0)]),
control = seg.control(seed=2)),
silent=TRUE)
}
# map function:
models8_101 <- by_veh28_101 %>%
mutate(segs = map(data, segf2),
segsp = map(data, segf2p))
对象 by_veh28_101
包含 2457 tibbles
。最后一步,使用 map
函数,需要 16 分钟才能完成。有什么方法可以让它更快吗?
您可以使用函数 future_map
而不是 map
。
此函数来自包 furrr
,是 map
系列的并行选项。这里是包的 README 的 link。
由于您的代码问题不可重现,我无法准备 map
和 future_map
函数之间的基准测试。
您使用 future_map
函数的代码如下:
library(tidyverse)
library(segmented)
library(furrr)
# Data frame stuff....
# Your functions....
# future_map function
# this distribute over the different cores of your computer
# You set a "plan" for how the code should run. The easiest is `multiprocess`
# On Mac this picks plan(multicore) and on Windows this picks plan(multisession)
plan(strategy = multiprocess)
models8_101 <- by_veh28_101 %>%
mutate(segs = future_map(data, segf2),
segsp = future_map(data, segf2p))