运行 外部命令部分来自 python(或 bash)
Running external commands partly in parallel from python (or bash)
我正在 运行创建一个 python 脚本,它创建一个命令列表,这些命令应该由编译程序(专有)执行。
程序可以将一些计算独立地拆分为运行,然后再收集数据。
我想运行并行进行这些计算,因为每个计算都是非常耗时的单线程任务,而且我有 16 个可用内核。
我正在使用子进程执行命令(在 Class 环境中):
def run_local(self):
p = Popen(["someExecutable"], stdout=PIPE, stdin=PIPE)
p.stdin.write(self.exec_string)
p.stdin.flush()
while(p.poll() is not none):
line = p.stdout.readline()
self.log(line)
其中 self.exec_string 是所有命令的字符串。
这个字符串被分成:一个初始部分,我想要并行化的部分和一个结束部分。
我该怎么办?
如果每个部分都使用了当前方法的简单复制粘贴,那么可执行文件似乎也会 "hang"(等待命令,例如 "exit" 这将释放内存) .
奖励: 可执行文件还可以选择 运行 一个 bash 命令脚本,如果 easier/possible 并行化 bash?
对于bash来说,可以很简单。假设您的文件如下所示:
## init part##
ls
cd ..
ls
cat some_file.txt
## parallel ##
heavycalc &
heavycalc &
heavycalc &
## finish ##
wait
cat results.txt
在命令后面使用 &
,您可以在后台线程中将此命令告诉 bash 到 运行。 wait
然后将等待所有后台线程完成,因此您可以确定,所有计算都已完成。
我假设您输入的 txt 文件是纯 bash 命令。
使用 GNU 并行:
## init
cd foo
cp bar baz
## parallel ##
parallel heavycalc ::: file1 file2 file3 > results.txt
## finish ##
cat results.txt
GNU Parallel 是一个通用的并行器,可以很容易地在同一台机器或您可以通过 ssh 访问的多台机器上并行 运行 作业。它通常可以代替 for
循环。
如果您有 32 个不同的作业要 运行 在 4 CPU 秒内执行,一个直接的并行化方法是 运行 每个 CPU 8 个作业:
GNU Parallel 在一个进程完成时生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:
安装
如果 GNU Parallel 未打包用于您的发行版,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
有关其他安装选项,请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README
了解更多
查看更多示例:http://www.gnu.org/software/parallel/man.html
观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html
注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel
我正在 运行创建一个 python 脚本,它创建一个命令列表,这些命令应该由编译程序(专有)执行。
程序可以将一些计算独立地拆分为运行,然后再收集数据。
我想运行并行进行这些计算,因为每个计算都是非常耗时的单线程任务,而且我有 16 个可用内核。
我正在使用子进程执行命令(在 Class 环境中):
def run_local(self):
p = Popen(["someExecutable"], stdout=PIPE, stdin=PIPE)
p.stdin.write(self.exec_string)
p.stdin.flush()
while(p.poll() is not none):
line = p.stdout.readline()
self.log(line)
其中 self.exec_string 是所有命令的字符串。
这个字符串被分成:一个初始部分,我想要并行化的部分和一个结束部分。
我该怎么办?
如果每个部分都使用了当前方法的简单复制粘贴,那么可执行文件似乎也会 "hang"(等待命令,例如 "exit" 这将释放内存) .
奖励: 可执行文件还可以选择 运行 一个 bash 命令脚本,如果 easier/possible 并行化 bash?
对于bash来说,可以很简单。假设您的文件如下所示:
## init part##
ls
cd ..
ls
cat some_file.txt
## parallel ##
heavycalc &
heavycalc &
heavycalc &
## finish ##
wait
cat results.txt
在命令后面使用 &
,您可以在后台线程中将此命令告诉 bash 到 运行。 wait
然后将等待所有后台线程完成,因此您可以确定,所有计算都已完成。
我假设您输入的 txt 文件是纯 bash 命令。
使用 GNU 并行:
## init
cd foo
cp bar baz
## parallel ##
parallel heavycalc ::: file1 file2 file3 > results.txt
## finish ##
cat results.txt
GNU Parallel 是一个通用的并行器,可以很容易地在同一台机器或您可以通过 ssh 访问的多台机器上并行 运行 作业。它通常可以代替 for
循环。
如果您有 32 个不同的作业要 运行 在 4 CPU 秒内执行,一个直接的并行化方法是 运行 每个 CPU 8 个作业:
GNU Parallel 在一个进程完成时生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:
安装
如果 GNU Parallel 未打包用于您的发行版,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
有关其他安装选项,请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README
了解更多
查看更多示例:http://www.gnu.org/software/parallel/man.html
观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html
注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel