单独调用规则变量并为特定规则添加独立环境
calling variables for rule individually and adding an independent environment for a specific rule
我需要 运行 集群中的 snakemake 规则,因此对于某些规则,我需要加载一些工具和库,而这些工具独立于/排他于其他规则。在这种情况下,我如何在我的 snakemake 规则中指定这些。例如,对于 rule score
我目前需要 module load r/3.5.1
和 export R_lib =/user/tools/software
,我在 运行ning snakemake 之前在命令行中分别 运行ning 这些行。但是,如果有一种方法可以在 env
.
规则内做到这一点,那就太好了
- 问题,
我有如下规则,
rule score:
input:
count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
params:
result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
cancertype=config['general']['paths']['cancertype'],
sample_id=expand('{sample}',sample=samples['sample'].unique())
output:
files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
shell:
'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'
我对上述代码片段的实际行为是:
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
然而,预期的行为是:
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
对于第二个样本,
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv
我需要变量 sample_d
['GNMS4', 'MRT5T']
应该单独使用,而不是在一个 shell 命令行中一起使用。
onstart
我认为可以。请注意,dry运行s 不会触发此处理程序,这在您的场景中是可以接受的。
onstart:
shell("load tools")
- 简单的bash
for
循环应该可以解决问题。但是,如果您希望每个样本 运行 作为单独的规则,则必须使用样本名称作为 output
文件名的一部分。
shell:
'''
for sample in {param.sample_id}
do
your command $sample
done
'''
关于您的第一个问题:您可以在规则的 shell
部分中放置您喜欢的任何 module load
或 export
命令。
关于你的第二个问题,你可能不应该在规则的 params
部分使用 expand
。在 expand('{sample}',sample=samples['sample'].unique())
中,您实际上并没有使用 sample
通配符的值,而是在 sample['sample']
中生成了所有唯一值的列表。您可能只需要在 shell 命令的定义中使用 wildcards.sample
而不是使用 params
元素。
如果您想 运行 基于 sample
可能值的 score
规则的多个实例,您需要 "drive" 使用另一个需要score
的输出作为其输入。
请注意,为了提高可读性,您可以使用 python 的 multi-line 字符串 (triple-quoted)。
总而言之,您可以尝试这样的操作:
rule all:
input:
expand(
os.path.join(
config['general']['paths']['outdir'],
'score',
'{sample}_bg_scores.tsv',
'{sample}_tp_scores.tsv'),
sample=samples['sample'].unique())
rule score:
input:
count = os.path.join(
config['general']['paths']['outdir'],
'count_expression', '{sample}.tsv'),
libsize = os.path.join(
config['general']['paths']['outdir'],
'count_expression', '{sample}.size_tsv')
params:
result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
cancertype = config['general']['paths']['cancertype'],
output:
files = os.path.join(
config['general']['paths']['outdir'],
'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
shell:
"""
module load r/3.5.1
export R_lib =/user/tools/software
mkdir -p {params.result_dir}
Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
"""
我需要 运行 集群中的 snakemake 规则,因此对于某些规则,我需要加载一些工具和库,而这些工具独立于/排他于其他规则。在这种情况下,我如何在我的 snakemake 规则中指定这些。例如,对于 rule score
我目前需要 module load r/3.5.1
和 export R_lib =/user/tools/software
,我在 运行ning snakemake 之前在命令行中分别 运行ning 这些行。但是,如果有一种方法可以在 env
.
- 问题,
我有如下规则,
rule score:
input:
count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
params:
result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
cancertype=config['general']['paths']['cancertype'],
sample_id=expand('{sample}',sample=samples['sample'].unique())
output:
files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
shell:
'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'
我对上述代码片段的实际行为是:
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
然而,预期的行为是:
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
对于第二个样本,
shell:
mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv
我需要变量 sample_d
['GNMS4', 'MRT5T']
应该单独使用,而不是在一个 shell 命令行中一起使用。
onstart
我认为可以。请注意,dry运行s 不会触发此处理程序,这在您的场景中是可以接受的。
onstart:
shell("load tools")
- 简单的bash
for
循环应该可以解决问题。但是,如果您希望每个样本 运行 作为单独的规则,则必须使用样本名称作为output
文件名的一部分。
shell:
'''
for sample in {param.sample_id}
do
your command $sample
done
'''
关于您的第一个问题:您可以在规则的 shell
部分中放置您喜欢的任何 module load
或 export
命令。
关于你的第二个问题,你可能不应该在规则的 params
部分使用 expand
。在 expand('{sample}',sample=samples['sample'].unique())
中,您实际上并没有使用 sample
通配符的值,而是在 sample['sample']
中生成了所有唯一值的列表。您可能只需要在 shell 命令的定义中使用 wildcards.sample
而不是使用 params
元素。
如果您想 运行 基于 sample
可能值的 score
规则的多个实例,您需要 "drive" 使用另一个需要score
的输出作为其输入。
请注意,为了提高可读性,您可以使用 python 的 multi-line 字符串 (triple-quoted)。
总而言之,您可以尝试这样的操作:
rule all:
input:
expand(
os.path.join(
config['general']['paths']['outdir'],
'score',
'{sample}_bg_scores.tsv',
'{sample}_tp_scores.tsv'),
sample=samples['sample'].unique())
rule score:
input:
count = os.path.join(
config['general']['paths']['outdir'],
'count_expression', '{sample}.tsv'),
libsize = os.path.join(
config['general']['paths']['outdir'],
'count_expression', '{sample}.size_tsv')
params:
result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
cancertype = config['general']['paths']['cancertype'],
output:
files = os.path.join(
config['general']['paths']['outdir'],
'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
shell:
"""
module load r/3.5.1
export R_lib =/user/tools/software
mkdir -p {params.result_dir}
Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
"""