通过 ssh 的多台机器的 snakemake(或并行)

snakemake (or parallel) for multiple machines over ssh

假设你有一个 snakemake 文件。此文件生成大约 50000 个作业,但是,这些都是需要几秒钟才能完成的小作业 运行。

从头节点,您可以访问多个名为:

的服务器
machine01
machine02
machine03
machine04
machine05
machine06

更有趣的是,每台机器的核数不均。将不同的作业发送到不同的机器以并行执行的最佳方法是什么?我在 snakemake 中尝试了批处理选项,但似乎没有用,但我认为可以。

对于 GNU Parallel,它可能看起来像这样:

cat arguments | parallel --slf list-of-servers my_script

如果服务器安装了 GNU Parallel,它会检测每个服务器上的内核数。