如何获取 snakemake 输出规则中通配符值的基名?

How to get the basename of the wildcard values in the snakemake output rule?

在以下示例中,将在与输入文件相同的位置创建输出文件。有没有办法在输出部分获取通配符值的基名,以便我可以使用输入文件的基名来命名输出文件但将其写入不同的位置?

infile=['/home/user/folder1/file1','/home/user/folder2/file2/']

rule one:
 input: expand("{myfile}", myfile = infile)

 output: "{myfile}" + ".out"

 shell: "touch {wildcards.myfile}.out"

在 Snakemake 中有一个简单的方法可以使用 Python 的 lambda 功能。

首先,您应该创建一个文件字典,文件名作为键,文件路径作为值,如下所示:

files = {'filesA' : 'path/to/fileA.ext', 'filesB' : 'path/to/fileB.ext'}

这个字典可以在snakefile或者配置文件中。我建议把它放在配置文件里,这样调用config['dict_name']

现在让我们使用 lambda 函数编写您的规则:

rule all : 
 input :
   #If you want to create in a different directory use this,
   #but it has to be like output from rule one. 
   #expand('{directory}{filename}{extension}',
           #directory = 'path/to/newdir',
           #filename = config['dictname'].keys(),
           #extension = '.out')
   #Otherwise
   expand('{filename}{extension}',
          filename = config['dictname'].keys(),
          extension = '.out')
rule one:
 input: lambda wildcards: config['dictname'][wildcards.input]

 output: "{input}" + ".out"

 message: "Executing one using {input}"

 shell: "touch {input}.out"

这里的代码中有两个规则,第一个名为 all 的规则将被执行。因此,当您启动 snakemake 时,它会想要获取与 expand 函数创建的列表相对应的文件列表。

Snakemake 将查看规则是否生成该文件列表,如果不是,它将在目录中搜索它们。如您所见,您可以使用 expand 目录、文件名、后缀、前缀、扩展名...

指定您想要的一切

在这个例子中,Snakemake 想要一些文件的文件名是keys字典,扩展名是.out。规则 one 是生成它们的完美规则。

规则one是这样工作的:对于字典的每个键,规则都会被执行。输入部分的 lambda 函数起到了这个作用。 作为记录,可以随意调用通配符 input 只是一个示例。

为了更优雅,您可以像这样将 lambda 函数的内容放入变量中:

_input_One = lambda wildcards: config['dictname'][wildcards.input]

然后像这样写规则一输入:

input: _input_One 

有关详细信息,请查看 https://snakemake.readthedocs.io/en/stable/

上的文档

雨果