如何处理 snakemake 配置文件中提供的 ftp 链接?
How to handle ftp links provided in config file in snakemake?
我正在尝试构建一个 snakemake 工作流,它将提供指向本地文件的符号链接(如果存在)或者如果文件不存在,将下载该文件并将其集成到工作流中。为此,我使用了两个具有相同输出的规则,并优先使用 ruleorder.
链接规则(下面的 ln_fastq_pe)
文件是否存在在执行工作流之前是已知的。文件路径或 ftp 链接在制表符分隔的配置文件中提供,工作流使用该文件读取样本。
例如samples.txt的内容:
id sample_name fq1 fq2
b test_paired resources/SRR1945436_1.fastq.gz resources/SRR1945436_2.fastq.gz
c test_paired2 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR194/005/SRR1945435/SRR1945435_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR194/005/SRR1945435/SRR1945435_2.fastq.gz
此处工作流程的相关代码:
import pandas as pd
from snakemake.remote.FTP import RemoteProvider as FTPRemoteProvider
FTP = FTPRemoteProvider()
configfile: "config/config.yaml"
samples = pd.read_table("config/samples.tsv").set_index("id", drop=False)
all_ids=list(samples["id"])
ruleorder: ln_fastq_pe > dl_fastq_pe
rule dl_fastq_pe:
"""
download file from ftp link
"""
input:
fq1=lambda wildcards: FTP.remote(samples.loc[wildcards.id, "fq1"], keep_local=True),
fq2=lambda wildcards: FTP.remote(samples.loc[wildcards.id, "fq2"], keep_local=True)
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
mv {input.fq1} {output[0]}
mv {input.fq2} {output[1]}
"""
rule ln_fastq_pe:
"""
link file
"""
input:
fq1=lambda wildcards: samples.loc[wildcards.id, "fq1"],
fq2=lambda wildcards: samples.loc[wildcards.id, "fq2"]
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
ln -sr {input.fq1} {output[0]}
ln -sr {input.fq2} {output[1]}
"""
当我 运行 此工作流程时,我收到以下错误,指向描述 ln_fastq_pe 规则的行。
WorkflowError in line 58 of /path/to/Snakefile:
Function did not return str or list of str.
我认为错误在于我如何在 dl_fastq_pe 规则中描述 samples.txt 配置文件中的 FTP 链接。描述表格配置文件中给出的 FTP 链接的正确方法是什么,以便 snakemake 能够理解它们并可以在工作流程中下载和使用这些文件?
另外,是否可以做我想做的事情,这种方法可以帮助我吗?我尝试了其他解决方案(例如,使用 python 代码检查文件是否存在,如果存在则执行一组 shell 命令,如果不存在则执行另一组)无济于事。
您正在尝试将对象从 pandas
传递给 Snakemake。后者在规则的输入部分期望 str
或 list[str]
类型的值,但您提供的值 (samples.loc[wildcards.id, "fq1"]
) 是 pandas.core.frame.DataFrame
或 pandas.core.series.Series
.您需要将它们转换为 Snamemake 所期望的。例如,这可能有帮助:samples.loc[wildcards.id, "fq1"].tolist()
.
我想出了如何做到这一点,方法是省略输入,而是通过参数读取 samples.tsv 中的字段,并将两个规则合并为一个规则。与输入不同,Snakemake 对通过参数读取的内容并不挑剔。然后我使用 test
命令询问文件是否存在。如果存在,则继续使用符号链接,如果不存在,则使用 wget 下载。
解决方法如下:
import os
import pandas as pd
samples = pd.read_table("config/samples.tsv").set_index("id", drop=False)
all_ids=list(samples["id"])
rule all:
input:
expand("resources/fq/{id}_1.fq.gz", id=all_ids),
expand("resources/fq/{id}_2.fq.gz", id=all_ids)
rule dl_fastq_pe:
"""
if file exists, symlink. If file doesn't exist, download to resources
"""
params:
fq1=lambda wildcards: samples.loc[wildcards.id,"fq1"],
fq2=lambda wildcards: samples.loc[wildcards.id,"fq2"]
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
if test -f {params.fq1}
then
ln -sr {params.fq1} {output[0]}
ln -sr {params.fq2} {output[1]}
else
wget --no-check-certificate -O {output[0]} {params.fq1}
wget --no-check-certificate -O {output[1]} {params.fq2}
fi
"""
我正在尝试构建一个 snakemake 工作流,它将提供指向本地文件的符号链接(如果存在)或者如果文件不存在,将下载该文件并将其集成到工作流中。为此,我使用了两个具有相同输出的规则,并优先使用 ruleorder.
链接规则(下面的 ln_fastq_pe)文件是否存在在执行工作流之前是已知的。文件路径或 ftp 链接在制表符分隔的配置文件中提供,工作流使用该文件读取样本。 例如samples.txt的内容:
id sample_name fq1 fq2
b test_paired resources/SRR1945436_1.fastq.gz resources/SRR1945436_2.fastq.gz
c test_paired2 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR194/005/SRR1945435/SRR1945435_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR194/005/SRR1945435/SRR1945435_2.fastq.gz
此处工作流程的相关代码:
import pandas as pd
from snakemake.remote.FTP import RemoteProvider as FTPRemoteProvider
FTP = FTPRemoteProvider()
configfile: "config/config.yaml"
samples = pd.read_table("config/samples.tsv").set_index("id", drop=False)
all_ids=list(samples["id"])
ruleorder: ln_fastq_pe > dl_fastq_pe
rule dl_fastq_pe:
"""
download file from ftp link
"""
input:
fq1=lambda wildcards: FTP.remote(samples.loc[wildcards.id, "fq1"], keep_local=True),
fq2=lambda wildcards: FTP.remote(samples.loc[wildcards.id, "fq2"], keep_local=True)
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
mv {input.fq1} {output[0]}
mv {input.fq2} {output[1]}
"""
rule ln_fastq_pe:
"""
link file
"""
input:
fq1=lambda wildcards: samples.loc[wildcards.id, "fq1"],
fq2=lambda wildcards: samples.loc[wildcards.id, "fq2"]
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
ln -sr {input.fq1} {output[0]}
ln -sr {input.fq2} {output[1]}
"""
当我 运行 此工作流程时,我收到以下错误,指向描述 ln_fastq_pe 规则的行。
WorkflowError in line 58 of /path/to/Snakefile:
Function did not return str or list of str.
我认为错误在于我如何在 dl_fastq_pe 规则中描述 samples.txt 配置文件中的 FTP 链接。描述表格配置文件中给出的 FTP 链接的正确方法是什么,以便 snakemake 能够理解它们并可以在工作流程中下载和使用这些文件?
另外,是否可以做我想做的事情,这种方法可以帮助我吗?我尝试了其他解决方案(例如,使用 python 代码检查文件是否存在,如果存在则执行一组 shell 命令,如果不存在则执行另一组)无济于事。
您正在尝试将对象从 pandas
传递给 Snakemake。后者在规则的输入部分期望 str
或 list[str]
类型的值,但您提供的值 (samples.loc[wildcards.id, "fq1"]
) 是 pandas.core.frame.DataFrame
或 pandas.core.series.Series
.您需要将它们转换为 Snamemake 所期望的。例如,这可能有帮助:samples.loc[wildcards.id, "fq1"].tolist()
.
我想出了如何做到这一点,方法是省略输入,而是通过参数读取 samples.tsv 中的字段,并将两个规则合并为一个规则。与输入不同,Snakemake 对通过参数读取的内容并不挑剔。然后我使用 test
命令询问文件是否存在。如果存在,则继续使用符号链接,如果不存在,则使用 wget 下载。
解决方法如下:
import os
import pandas as pd
samples = pd.read_table("config/samples.tsv").set_index("id", drop=False)
all_ids=list(samples["id"])
rule all:
input:
expand("resources/fq/{id}_1.fq.gz", id=all_ids),
expand("resources/fq/{id}_2.fq.gz", id=all_ids)
rule dl_fastq_pe:
"""
if file exists, symlink. If file doesn't exist, download to resources
"""
params:
fq1=lambda wildcards: samples.loc[wildcards.id,"fq1"],
fq2=lambda wildcards: samples.loc[wildcards.id,"fq2"]
output:
"resources/fq/{id}_1.fq.gz",
"resources/fq/{id}_2.fq.gz"
shell:
"""
if test -f {params.fq1}
then
ln -sr {params.fq1} {output[0]}
ln -sr {params.fq2} {output[1]}
else
wget --no-check-certificate -O {output[0]} {params.fq1}
wget --no-check-certificate -O {output[1]} {params.fq2}
fi
"""