单独调用规则变量并为特定规则添加独立环境

Question

我需要运行集群中的 snakemake 规则，因此对于某些规则，我需要加载一些工具和库，而这些工具独立于/排他于其他规则。在这种情况下，我如何在我的 snakemake 规则中指定这些。例如，对于 rule score 我目前需要 module load r/3.5.1 和 export R_lib =/user/tools/software，我在运行ning snakemake 之前在命令行中分别运行ning 这些行。但是，如果有一种方法可以在 env.

规则内做到这一点，那就太好了

问题，

我有如下规则，

rule score:
    input:
        count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
        libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
    params:
        result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
        cancertype=config['general']['paths']['cancertype'],
        sample_id=expand('{sample}',sample=samples['sample'].unique())
    output:
        files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
    shell:
        'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'

我对上述代码片段的实际行为是：

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

然而，预期的行为是：

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

对于第二个样本，

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv

我需要变量 sample_d ['GNMS4', 'MRT5T'] 应该单独使用，而不是在一个 shell 命令行中一起使用。

Answer 1

onstart 我认为可以。请注意，dry运行s 不会触发此处理程序，这在您的场景中是可以接受的。

onstart:
   shell("load tools")

简单的bashfor循环应该可以解决问题。但是，如果您希望每个样本运行作为单独的规则，则必须使用样本名称作为 output 文件名的一部分。

shell:
   '''
   for sample in {param.sample_id}
   do
      your command $sample
   done
   '''

Answer 2

关于您的第一个问题：您可以在规则的 shell 部分中放置您喜欢的任何 module load 或 export 命令。

关于你的第二个问题，你可能不应该在规则的 params 部分使用 expand。在 expand('{sample}',sample=samples['sample'].unique()) 中，您实际上并没有使用 sample 通配符的值，而是在 sample['sample'] 中生成了所有唯一值的列表。您可能只需要在 shell 命令的定义中使用 wildcards.sample 而不是使用 params 元素。

如果您想运行基于 sample 可能值的 score 规则的多个实例，您需要 "drive" 使用另一个需要score 的输出作为其输入。

请注意，为了提高可读性，您可以使用 python 的 multi-line 字符串 (triple-quoted)。

总而言之，您可以尝试这样的操作：

rule all:
    input:
        expand(
            os.path.join(
                config['general']['paths']['outdir'],
                'score',
                '{sample}_bg_scores.tsv',
                '{sample}_tp_scores.tsv'),
            sample=samples['sample'].unique())

rule score:
    input:
        count = os.path.join(
             config['general']['paths']['outdir'],
             'count_expression', '{sample}.tsv'),
        libsize = os.path.join(
             config['general']['paths']['outdir'],
             'count_expression', '{sample}.size_tsv')
    params:
        result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
        cancertype = config['general']['paths']['cancertype'],
    output:
        files = os.path.join(
            config['general']['paths']['outdir'],
            'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
    shell:
        """
        module load r/3.5.1
        export R_lib =/user/tools/software
        mkdir -p {params.result_dir}
        Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
        """

单独调用规则变量并为特定规则添加独立环境

calling variables for rule individually and adding an independent environment for a specific rule

python

expand

function

wildcard

snakemake