使用 bed 文件提取 fasta 序列时如何获取 strand
How to get strand when extracting fasta sequences using bed file
我正在尝试使用 bed 文件(自制)从基因组中提取 fasta 序列。
床文件如下所示(制表符分隔):
LQNS02278165.1 13104710 13109495 +
LQNS02278165.1 9139127 9142308 +
LQNS02278165.1 13665793 13666495 +
LQNS02278165.1 9143024 9144041 +
LQNS02278165.1 9221339 9222957 -
LQNS02278165.1 9220085 9220713 -
LQNS02278165.1 12608731 12609200 +
LQNS02278165.1 9144041 9144734 +
LQNS02278165.1 13666286 13666752 +
LQNS02278165.1 13655380 13655764 +
我是 运行 bedtools getfasta,带有强制搁浅选项 (-s),但这不起作用。我得到的输出没有按应有的方式考虑股线。有什么建议吗?
bedtools getfasta -s -fo strand_genome.fa -fi genome.fa -bed f.blast_genome.bed -fullHeader
>LQNS02278165.1:13104710-13109495()
AAAAAAA....
>LQNS02278165.1:9139127-9142308()
AAAAAAA....
>LQNS02278165.1:13665793-13666495()
AAAAAAA....
>LQNS02278165.1:9143024-9144041()
AAAAAAA....
>LQNS02278165.1:9221339-9222957()
AAAAAAA....
谢谢!
根据 bed format,链在第 6 列,因此在您的示例中只需将链移动到第 6 列:
cat test.fa
>chr01
ACCGGTT
cat test.bed
chr01 0 4 . . +
chr01 0 4 . . -
bedtools getfasta -s -fi test.fa -bed test.bed
>chr01:0-4(+)
AACC
>chr01:0-4(-)
GGTT
我正在尝试使用 bed 文件(自制)从基因组中提取 fasta 序列。 床文件如下所示(制表符分隔):
LQNS02278165.1 13104710 13109495 +
LQNS02278165.1 9139127 9142308 +
LQNS02278165.1 13665793 13666495 +
LQNS02278165.1 9143024 9144041 +
LQNS02278165.1 9221339 9222957 -
LQNS02278165.1 9220085 9220713 -
LQNS02278165.1 12608731 12609200 +
LQNS02278165.1 9144041 9144734 +
LQNS02278165.1 13666286 13666752 +
LQNS02278165.1 13655380 13655764 +
我是 运行 bedtools getfasta,带有强制搁浅选项 (-s),但这不起作用。我得到的输出没有按应有的方式考虑股线。有什么建议吗?
bedtools getfasta -s -fo strand_genome.fa -fi genome.fa -bed f.blast_genome.bed -fullHeader
>LQNS02278165.1:13104710-13109495()
AAAAAAA....
>LQNS02278165.1:9139127-9142308()
AAAAAAA....
>LQNS02278165.1:13665793-13666495()
AAAAAAA....
>LQNS02278165.1:9143024-9144041()
AAAAAAA....
>LQNS02278165.1:9221339-9222957()
AAAAAAA....
谢谢!
根据 bed format,链在第 6 列,因此在您的示例中只需将链移动到第 6 列:
cat test.fa
>chr01
ACCGGTT
cat test.bed
chr01 0 4 . . +
chr01 0 4 . . -
bedtools getfasta -s -fi test.fa -bed test.bed
>chr01:0-4(+)
AACC
>chr01:0-4(-)
GGTT