在 biopython 中获取 ID 和蛋白质序列

Question

我有这个代码。

from Bio import SeqIO

for seq_record in SeqIO.parse("aminoacids.txt", "fasta"):

print(seq_record.id)

print(repr(seq_record.seq))

输出：

NP_414584.1

Seq('MNTFSQVWVFSDTPSRLPELMNGAQALANQINTFVLNDADGAQAIQLGANHVWK...LAR')

NP_414563.1

Seq('MASVSISCPSCSATDGVVRNGKSTAGHQRYLCSHCRKTWQLQFTYTASQPGTHQ...RSR')

NP_414564.1

Seq('MANIKSAKKRAIQSEKARKHNASRRSMMRTFIKKVYAAIEAGDKAAAQKAFNEM...KLA')

NP_414565.1

Seq('MCRHSLRSDGAGFYQLAGCEYSFSAIKIAAGGQFLPVICAMAMKSHFFLISVLN...SLF')

NP_414566.1

Seq('MKLIRGIHNLSQAPQEGCVLTIGNFDGVHRGHRALLQGLQEEGRKRNLPVMVML...KPA')

问题：我应该得到 ID 和完整的序列，在开头没有“Seq”，而且只有一个字符串。像这样：

NP_414584.1
MNTFSQVWVFSDTPSRLPELMNGAQALANQINTFVLNDADGAQAIQLGANHVWKLNGKPDDRMIEDYAGVMADTIRQHGADGLVLLPNTRRGKLLAAKLGYRLKAAVSNDASTVSVQDGKATVKHMVYGGLAIGEERIATPYAVLTISSGTFDAAQPDASRTGETHTVEWQAPAVAITRTATQARQSNSVDLDKARLVVSVGRGIGSKENIALAEQLCKAIGAELACSRPVAENEKWMEHERYVGISNLMLKPELYLAVGISGQIQHMVGANASQTIFAI NKDKNAPIFQYADYGIVGDAVKILPALTAALAR

我怎样才能得到这个输出？

Answer 1

repr 不是为做最终输出而设计的。它本质上是一个调试工具。你拥有的是一个 Seq 对象。你可能需要做：

print(seq_record.seq)

它使用 str 方法。

在 biopython 中获取 ID 和蛋白质序列

Get ID and protein sequences in biopython

python

sequence

fasta

biopython