使用 pool() 跟踪并行循环中的答案 - Python
Keep track of answers in Parallelized loops using pool() - Python
尽管阅读了 , here, 以及许多其他类似的帖子,但我仍然无法并行化我的问题。这些是我拥有的 for
循环:
a = [1,11]
b = [2,22,222]
c = [3,33,333,3333]
results_01 = []
results_02 = []
results_03 = []
for i in range(len(a)):
for j in range(len(b)):
for k in range(len(c)):
r_01 = [a[i] + b[j] + c[k]]
r_02 = [a[i] - b[j] - c[k]]
r_03 = [a[i] * b[j] * c[k]]
results_01.append(r_01)
results_02.append(r_02)
results_03.append(r_03)
我需要将其并行化并跟踪每个最终答案对应的 i
、j
和 k
的组合(例如,我需要知道哪些最终答案分别对应 a[1]
、b[2]
、c[3]
)。我尝试了各种方法并且 none 有效,但对我来说最合乎逻辑的方法如下:
import multiprocessing as mp
from multiprocessing import Pool
num_processes = mp.cpu_count()-12
def parallelize(i,j,k):
r_01 = [i + j + k]
r_02 = [i - j - k]
r_03 = [i * j * k]
return r_01, r_02, r_03
if __name__ == '__main__':
__spec__ = "ModuleSpec(name='builtins', loader=<class '_frozen_importlib.BuiltinImporter'>)" # this is because I am using Spyder!
a = [1,11]
b = [2,22,222]
c = [3,33,333,3333]
pool = Pool(processes = num_processes)
results = pool.map(parallelize(a[i],b[j],c[k]), [p for p in range(num_processes)])
pool.close()
pool.join()
results_01 = [i[0] for i in results]
results_02 = [i[1] for i in results]
results_03 = [i[2] for i in results]
这给了我错误 name 'i' is not defined
,这是完全有道理的,但由于我是 MP 的新手,我不知道我还能怎么做!有人可以帮我解决这个问题吗?
P.S。这是我编造的一个非常简单的问题!实际上我的问题要复杂得多,但解决这个问题可以帮助我解决真正的问题。
试试这个:
results = pool.starmap(parallelize, [(ai, bj, ck) for ai in a for bj in b for ck in c])
一些解释:
pool.map
仅适用于具有一个参数的函数。对于具有更多参数的函数,为了方便,您可以使用 pool.starmap
,这可以帮助您 "unpack" 参数,就像调用 parallelize(*tuple)
.
- 无论您使用
pool.map
还是 pool.starmap
,您都需要将 函数本身 作为参数传递,而不是单独调用它 -- - 重点是让其他线程为您完成工作。这意味着函数名称后没有括号。
- 使用进程池的一个优点是您无需担心如何将任务分派给每个进程。所以与
num_processes
无关。只需将您要执行的所有任务的列表传递给它,然后让池完成其余的工作。 (除非每个单独的任务工作量太少,在这种情况下您可能希望将它们组合起来以减少开销。)
尽管阅读了 for
循环:
a = [1,11]
b = [2,22,222]
c = [3,33,333,3333]
results_01 = []
results_02 = []
results_03 = []
for i in range(len(a)):
for j in range(len(b)):
for k in range(len(c)):
r_01 = [a[i] + b[j] + c[k]]
r_02 = [a[i] - b[j] - c[k]]
r_03 = [a[i] * b[j] * c[k]]
results_01.append(r_01)
results_02.append(r_02)
results_03.append(r_03)
我需要将其并行化并跟踪每个最终答案对应的 i
、j
和 k
的组合(例如,我需要知道哪些最终答案分别对应 a[1]
、b[2]
、c[3]
)。我尝试了各种方法并且 none 有效,但对我来说最合乎逻辑的方法如下:
import multiprocessing as mp
from multiprocessing import Pool
num_processes = mp.cpu_count()-12
def parallelize(i,j,k):
r_01 = [i + j + k]
r_02 = [i - j - k]
r_03 = [i * j * k]
return r_01, r_02, r_03
if __name__ == '__main__':
__spec__ = "ModuleSpec(name='builtins', loader=<class '_frozen_importlib.BuiltinImporter'>)" # this is because I am using Spyder!
a = [1,11]
b = [2,22,222]
c = [3,33,333,3333]
pool = Pool(processes = num_processes)
results = pool.map(parallelize(a[i],b[j],c[k]), [p for p in range(num_processes)])
pool.close()
pool.join()
results_01 = [i[0] for i in results]
results_02 = [i[1] for i in results]
results_03 = [i[2] for i in results]
这给了我错误 name 'i' is not defined
,这是完全有道理的,但由于我是 MP 的新手,我不知道我还能怎么做!有人可以帮我解决这个问题吗?
P.S。这是我编造的一个非常简单的问题!实际上我的问题要复杂得多,但解决这个问题可以帮助我解决真正的问题。
试试这个:
results = pool.starmap(parallelize, [(ai, bj, ck) for ai in a for bj in b for ck in c])
一些解释:
pool.map
仅适用于具有一个参数的函数。对于具有更多参数的函数,为了方便,您可以使用pool.starmap
,这可以帮助您 "unpack" 参数,就像调用parallelize(*tuple)
.- 无论您使用
pool.map
还是pool.starmap
,您都需要将 函数本身 作为参数传递,而不是单独调用它 -- - 重点是让其他线程为您完成工作。这意味着函数名称后没有括号。 - 使用进程池的一个优点是您无需担心如何将任务分派给每个进程。所以与
num_processes
无关。只需将您要执行的所有任务的列表传递给它,然后让池完成其余的工作。 (除非每个单独的任务工作量太少,在这种情况下您可能希望将它们组合起来以减少开销。)