在 Python 中并行化四个嵌套循环
Parallelizing four nested loops in Python
我有一个相当简单的嵌套 for 循环,它遍历四个数组:
for a in a_grid:
for b in b_grid:
for c in c_grid:
for d in d_grid:
do_some_stuff(a,b,c,d) # perform calculations and write to file
也许这不是开始时在 4D 网格上执行计算的最有效方法。我知道 joblib
能够并行化两个嵌套 for 循环,例如 ,但我无法将其概括为四个嵌套循环。有什么想法吗?
作业的数量与嵌套循环的数量无关。
在另一个答案中,它恰好是 n_jobs=2
和 2 个循环,但两者完全无关。
这样想:
你有一堆函数调用;在你的情况下(展开循环):
do_some_stuff(0,0,0,0)
do_some_stuff(0,0,0,1)
do_some_stuff(0,0,0,2)
do_some_stuff(0,0,1,0)
do_some_stuff(0,0,1,1)
do_some_stuff(0,0,1,2)
...
并且您希望将这些函数调用分配给一些作业。
你可以使用 2 个工作,或者 10 个,或者 100 个,这都没有关系。 Parallel
负责为您分配工作。
如果您使用的工具可以轻松并行化两个而不是四个嵌套循环,则可以使用 itertools.product
将四个嵌套 for
循环减少为两个:
from itertools import product
for a, b in product(a_grid, b_grid):
for c, d in product(c_grid, d_grid):
do_some_stuff(a, b, c, d)
我通常使用这种形式的代码:
#!/usr/bin/env python3
import itertools
import multiprocessing
#Generate values for each parameter
a = range(10)
b = range(10)
c = range(10)
d = range(10)
#Generate a list of tuples where each tuple is a combination of parameters.
#The list will contain all possible combinations of parameters.
paramlist = list(itertools.product(a,b,c,d))
#A function which will process a tuple of parameters
def func(params):
a = params[0]
b = params[1]
c = params[2]
d = params[3]
return a*b*c*d
#Generate processes equal to the number of cores
pool = multiprocessing.Pool()
#Distribute the parameter sets evenly across the cores
res = pool.map(func,paramlist)
我有一个相当简单的嵌套 for 循环,它遍历四个数组:
for a in a_grid:
for b in b_grid:
for c in c_grid:
for d in d_grid:
do_some_stuff(a,b,c,d) # perform calculations and write to file
也许这不是开始时在 4D 网格上执行计算的最有效方法。我知道 joblib
能够并行化两个嵌套 for 循环,例如
作业的数量与嵌套循环的数量无关。
在另一个答案中,它恰好是 n_jobs=2
和 2 个循环,但两者完全无关。
这样想: 你有一堆函数调用;在你的情况下(展开循环):
do_some_stuff(0,0,0,0)
do_some_stuff(0,0,0,1)
do_some_stuff(0,0,0,2)
do_some_stuff(0,0,1,0)
do_some_stuff(0,0,1,1)
do_some_stuff(0,0,1,2)
...
并且您希望将这些函数调用分配给一些作业。
你可以使用 2 个工作,或者 10 个,或者 100 个,这都没有关系。 Parallel
负责为您分配工作。
如果您使用的工具可以轻松并行化两个而不是四个嵌套循环,则可以使用 itertools.product
将四个嵌套 for
循环减少为两个:
from itertools import product
for a, b in product(a_grid, b_grid):
for c, d in product(c_grid, d_grid):
do_some_stuff(a, b, c, d)
我通常使用这种形式的代码:
#!/usr/bin/env python3
import itertools
import multiprocessing
#Generate values for each parameter
a = range(10)
b = range(10)
c = range(10)
d = range(10)
#Generate a list of tuples where each tuple is a combination of parameters.
#The list will contain all possible combinations of parameters.
paramlist = list(itertools.product(a,b,c,d))
#A function which will process a tuple of parameters
def func(params):
a = params[0]
b = params[1]
c = params[2]
d = params[3]
return a*b*c*d
#Generate processes equal to the number of cores
pool = multiprocessing.Pool()
#Distribute the parameter sets evenly across the cores
res = pool.map(func,paramlist)