在 biopython 中获取 ID 和蛋白质序列

Get ID and protein sequences in biopython

我有这个代码。

from Bio import SeqIO

for seq_record in SeqIO.parse("aminoacids.txt", "fasta"):

print(seq_record.id)

print(repr(seq_record.seq))

输出:

NP_414584.1

Seq('MNTFSQVWVFSDTPSRLPELMNGAQALANQINTFVLNDADGAQAIQLGANHVWK...LAR')

NP_414563.1

Seq('MASVSISCPSCSATDGVVRNGKSTAGHQRYLCSHCRKTWQLQFTYTASQPGTHQ...RSR')

NP_414564.1

Seq('MANIKSAKKRAIQSEKARKHNASRRSMMRTFIKKVYAAIEAGDKAAAQKAFNEM...KLA')

NP_414565.1

Seq('MCRHSLRSDGAGFYQLAGCEYSFSAIKIAAGGQFLPVICAMAMKSHFFLISVLN...SLF')

NP_414566.1

Seq('MKLIRGIHNLSQAPQEGCVLTIGNFDGVHRGHRALLQGLQEEGRKRNLPVMVML...KPA')

问题:我应该得到 ID 和完整的序列,在开头没有“Seq”,而且只有一个字符串。 像这样:

NP_414584.1
MNTFSQVWVFSDTPSRLPELMNGAQALANQINTFVLNDADGAQAIQLGANHVWKLNGKPDDRMIEDYAGVMADTIRQHGADGLVLLPNTRRGKLLAAKLGYRLKAAVSNDASTVSVQDGKATVKHMVYGGLAIGEERIATPYAVLTISSGTFDAAQPDASRTGETHTVEWQAPAVAITRTATQARQSNSVDLDKARLVVSVGRGIGSKENIALAEQLCKAIGAELACSRPVAENEKWMEHERYVGISNLMLKPELYLAVGISGQIQHMVGANASQTIFAI NKDKNAPIFQYADYGIVGDAVKILPALTAALAR

我怎样才能得到这个输出?

repr 不是为做最终输出而设计的。它本质上是一个调试工具。你拥有的是一个 Seq 对象。你可能需要做:

print(seq_record.seq)

它使用 str 方法。