将 DNA 翻译成蛋白质时输出格式不正确
Incorrect output format when translating DNA to Protein
我知道之前有人问过这个问题,但我从中得到了一些非常奇怪的输出。基本上我试图将 .fasta 格式的 DNA 序列(即以“>”开头的标识符,后跟下一行的序列)转换为相同格式的氨基酸字母。我有代码:
#!/usr/bin/python
import sys
filename = sys.argv[1]
def translate_dna(sequence):
codontable = {
'ACC':'T', 'ACG':'T', 'ACT':'T',
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
'TAC':'Y', 'TAT':'Y', 'TAA':'*', 'TAG':'*',
'TGC':'C', 'TGT':'C', 'TGA':'*', 'TGG':'W',
'ATG':'M'
}
proteinsequence = ''
start = sequence.find('ATG')
sequencestart = sequence[int(start):]
stop = sequencestart.find('TAA')
cds = str(sequencestart[:int(stop)+3])
for n in range (0,len(cds),3):
if cds[n:n+3] in codontable:
proteinsequence += codontable[cds[n:n+3]]
print proteinsequence
sequence = ''
header = ''
sequence = ''
for line in open(filename):
if line[0] == ">":
if header != '':
print header
translate_dna(sequence)
header = line.strip()
sequence = ''
else:
sequence += line.strip()
print header
translate_dna(sequence)
我的输出应该是这样的:
mouse_IPS1_cds
MFAEDKTY(等等等等)
但我实际上得到了它每行打印一个新字母并且没有完成到序列末尾的地方:
mouse_IPS1_cds
米
中频
艺术硕士
工程硕士
MFAED
MFAEDK
MFAEDKT
MFAEDKTY(应该长一点就停在这里)
这样的输出使得这种半三角形不完整的字母列表每行只增加一个。
拜托,有没有人可以指出是什么导致了这种情况发生?为什么它会每行打印一个新字母然后甚至没有完成序列?
非常感谢任何帮助。
您在构建它的循环中的每次迭代中打印 proteinsequence
。结果,您获得了每个中间版本。将 print 语句移动到循环的末尾,像这样,您将只打印出最终产品:
for n in range (0,len(cds),3):
if cds[n:n+3] in codontable:
proteinsequence += codontable[cds[n:n+3]]
sequence = ''
print proteinsequence
我知道之前有人问过这个问题,但我从中得到了一些非常奇怪的输出。基本上我试图将 .fasta 格式的 DNA 序列(即以“>”开头的标识符,后跟下一行的序列)转换为相同格式的氨基酸字母。我有代码:
#!/usr/bin/python
import sys
filename = sys.argv[1]
def translate_dna(sequence):
codontable = {
'ACC':'T', 'ACG':'T', 'ACT':'T',
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
'TAC':'Y', 'TAT':'Y', 'TAA':'*', 'TAG':'*',
'TGC':'C', 'TGT':'C', 'TGA':'*', 'TGG':'W',
'ATG':'M'
}
proteinsequence = ''
start = sequence.find('ATG')
sequencestart = sequence[int(start):]
stop = sequencestart.find('TAA')
cds = str(sequencestart[:int(stop)+3])
for n in range (0,len(cds),3):
if cds[n:n+3] in codontable:
proteinsequence += codontable[cds[n:n+3]]
print proteinsequence
sequence = ''
header = ''
sequence = ''
for line in open(filename):
if line[0] == ">":
if header != '':
print header
translate_dna(sequence)
header = line.strip()
sequence = ''
else:
sequence += line.strip()
print header
translate_dna(sequence)
我的输出应该是这样的: mouse_IPS1_cds MFAEDKTY(等等等等)
但我实际上得到了它每行打印一个新字母并且没有完成到序列末尾的地方: mouse_IPS1_cds 米 中频 艺术硕士 工程硕士 MFAED MFAEDK MFAEDKT MFAEDKTY(应该长一点就停在这里)
这样的输出使得这种半三角形不完整的字母列表每行只增加一个。
拜托,有没有人可以指出是什么导致了这种情况发生?为什么它会每行打印一个新字母然后甚至没有完成序列?
非常感谢任何帮助。
您在构建它的循环中的每次迭代中打印 proteinsequence
。结果,您获得了每个中间版本。将 print 语句移动到循环的末尾,像这样,您将只打印出最终产品:
for n in range (0,len(cds),3):
if cds[n:n+3] in codontable:
proteinsequence += codontable[cds[n:n+3]]
sequence = ''
print proteinsequence