snakemake shell I/O 重定向和使用脚本访问 snakemake 变量
snakemake both shell I/O redirection and accessing snakemake variable using script
问题很简单:
我想从规则中调用脚本,我希望该规则适用于:
- 执行标准输出和标准错误重定向
- 从脚本中访问snakemake变量(变量可以是列表也可以是文字)
如果我使用 shell:
,我可以执行 I/O 重定向,但我不能在脚本中使用 snakemake
变量。
注意:当然可以将变量作为来自 shell 的参数传递给脚本。然而,通过这样做,脚本无法区分文字变量和列表变量。
如果我改为使用 script:
,那么我可以访问我的 snakemake 变量,但我无法执行 I/O 重定向和许多其他 shell 设施。
举例说明问题:
1) 使用 shell:
rule create_hdf5:
input:
genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
params:
# frequencies is a list!!!
frequencies = config['X_var']['freqs']
output:
HDF5_OUTPUT+'/{sample}.h5'
log:
out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
shell:
'python scripts/create_hdf5.py {input.genes_file} {params.frequencies} {output} {threads} 2> {log.err} 1> {log.out} '
1 的问题):自然地,python 脚本认为频率列表中的每个元素都是一个新参数。然而,脚本无法访问 snakemake
变量。
2) 使用 script:
rule create_hdf5:
input:
genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
params:
# frequencies is a list!!!
frequencies = config['X_var']['freqs']
output:
HDF5_OUTPUT+'/{sample}.h5'
log:
out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
script:
'scripts/create_hdf5.py'
问题 2):我可以访问脚本中的 snakemake 变量。但是现在我无法使用 bash 功能,例如 I/O 重定向。
我想知道是否有办法同时实现这两者(也许我从 snakemake 文档中遗漏了一些东西)?
提前致谢!
如果可能,我建议您使用 argparse 模块来解析脚本的输入,以便它可以解析参数列表,使用 nargs="*"
选项:
def main():
"""Main function of the program."""
parser = argparse.ArgumentParser(
description=__doc__,
formatter_class=argparse.ArgumentDefaultsHelpFormatter)
parser.add_argument(
"-g", "--genes_file",
required=True,
help="Path to a file containing the genes.")
parser.add_argument(
"-o", "--output_file",
required=True,
help="Path to the output file.")
parser.add_argument(
"-f", "--frequencies",
nargs="*",
help="Space-separated list of frequencies.")
parser.add_argument(
"-t", "--threads",
type=int,
default=1,
help="Number of threads to use.")
args = parser.parse_args()
# then use args.gene_file as a file name and args.frequencies as a list, etc.
你可以这样称呼它:
shell:
"""
python scripts/create_hdf5.py \
-g {input.genes_file} -f {params.frequencies} \
-o {output} -t {threads} 2> {log.err} 1> {log.out}
"""
您可以使用 snakemake.log varaibale 访问 python 脚本中的日志文件名,这是一个包含两个文件名的列表:
snakemake.log = [ LOG_FILES+'/create_hdf5/sample_1.out', LOG_FILES+'/create_hdf5/sample_1.err' ]
因此您可以在脚本中使用它来创建用于记录日志的日志文件,例如
import logging
mylogger = logging.getLogger('My logger')
# create file handler
fh = logging.FileHandler(snakemake.log[0])
mylogger.addHandler(fh)
mylogger.error("Some error")
问题很简单:
我想从规则中调用脚本,我希望该规则适用于:
- 执行标准输出和标准错误重定向
- 从脚本中访问snakemake变量(变量可以是列表也可以是文字)
如果我使用 shell:
,我可以执行 I/O 重定向,但我不能在脚本中使用 snakemake
变量。
注意:当然可以将变量作为来自 shell 的参数传递给脚本。然而,通过这样做,脚本无法区分文字变量和列表变量。
如果我改为使用 script:
,那么我可以访问我的 snakemake 变量,但我无法执行 I/O 重定向和许多其他 shell 设施。
举例说明问题:
1) 使用 shell:
rule create_hdf5:
input:
genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
params:
# frequencies is a list!!!
frequencies = config['X_var']['freqs']
output:
HDF5_OUTPUT+'/{sample}.h5'
log:
out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
shell:
'python scripts/create_hdf5.py {input.genes_file} {params.frequencies} {output} {threads} 2> {log.err} 1> {log.out} '
1 的问题):自然地,python 脚本认为频率列表中的每个元素都是一个新参数。然而,脚本无法访问 snakemake
变量。
2) 使用 script:
rule create_hdf5:
input:
genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
params:
# frequencies is a list!!!
frequencies = config['X_var']['freqs']
output:
HDF5_OUTPUT+'/{sample}.h5'
log:
out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
script:
'scripts/create_hdf5.py'
问题 2):我可以访问脚本中的 snakemake 变量。但是现在我无法使用 bash 功能,例如 I/O 重定向。
我想知道是否有办法同时实现这两者(也许我从 snakemake 文档中遗漏了一些东西)? 提前致谢!
如果可能,我建议您使用 argparse 模块来解析脚本的输入,以便它可以解析参数列表,使用 nargs="*"
选项:
def main():
"""Main function of the program."""
parser = argparse.ArgumentParser(
description=__doc__,
formatter_class=argparse.ArgumentDefaultsHelpFormatter)
parser.add_argument(
"-g", "--genes_file",
required=True,
help="Path to a file containing the genes.")
parser.add_argument(
"-o", "--output_file",
required=True,
help="Path to the output file.")
parser.add_argument(
"-f", "--frequencies",
nargs="*",
help="Space-separated list of frequencies.")
parser.add_argument(
"-t", "--threads",
type=int,
default=1,
help="Number of threads to use.")
args = parser.parse_args()
# then use args.gene_file as a file name and args.frequencies as a list, etc.
你可以这样称呼它:
shell:
"""
python scripts/create_hdf5.py \
-g {input.genes_file} -f {params.frequencies} \
-o {output} -t {threads} 2> {log.err} 1> {log.out}
"""
您可以使用 snakemake.log varaibale 访问 python 脚本中的日志文件名,这是一个包含两个文件名的列表:
snakemake.log = [ LOG_FILES+'/create_hdf5/sample_1.out', LOG_FILES+'/create_hdf5/sample_1.err' ]
因此您可以在脚本中使用它来创建用于记录日志的日志文件,例如
import logging
mylogger = logging.getLogger('My logger')
# create file handler
fh = logging.FileHandler(snakemake.log[0])
mylogger.addHandler(fh)
mylogger.error("Some error")