当 运行 在循环中时,Biopython 成对对齐导致分段错误
Biopython pairwise alignment results in segmentation fault when run in loop
我正尝试在 biopython
中使用 运行 成对全局比对方法循环处理大约 10000 对字符串。每个字符串平均长度为 20 个字符。 运行 一对序列的方法工作正常。但是 运行 在一个循环中,低至 4 对,会导致分段错误。如何解决?
from Bio import pairwise2
def myTrial(source,targ):
if source == targ:
return [source,targ,source]
alignments = pairwise2.align.globalmx(source, targ,1,-0.5)
return alignments
sour = ['najprzytulniejszy', 'sadystyczny', 'wyrzucić', 'świat']
targ = ['najprzytulniejszym', 'sadystycznemu', 'wyrzucisz', 'świat']
for i in range(4):
a = myTrial(sour[i],targ[i])
发生分段错误不是因为您正在使用循环,而是因为您提供非 ASCII 字符作为仅采用 ASCII 字符串输入的对齐模式的输入。幸运的是,Bio.pairwise2.align.globalmx
还允许对齐包含任意 ASCII 和非 ASCII 字符字符串作为标记的列表(即对齐字符串列表,例如 ['ABC', 'ABD']
和 ['ABC', 'GGG']
以生成类似
['ABC', 'ABD', '-' ]
['ABC', '-' , 'GGG']
或者在您的情况下,对齐非 ASCII 字符列表(例如 ['ś', 'w', 'i', 'a', 't']
和 ['w', 'y', 'r', 'z', 'u', 'c', 'i', 's', 'z']
以生成类似
的对齐方式
['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-']
['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z']
要使用 Biopython 完成此操作,请在您的代码中替换
alignments = pairwise2.align.globalmx(source, targ,1,-0.5)
和
alignments = pairwise2.align.globalmx(list(source), list(targ), 1, -0.5, gap_char=['-'])
所以对于
的输入
source = 'świat'
targ = 'wyrzucisz'
修改后的代码会产生
[(['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-'],
['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z'],
2.0,
0,
12)]
而不是分段错误。
并且由于列表中的每个标记只有一个字符长,您还可以使用以下方法将生成的对齐列表转换回字符串:
new_alignment = []
for aln in alignment:
# Convert lists back into strings
a = ''.join(aln[0])
b = ''.join(aln[1])
new_aln = (a, b) + aln[2:]
new_alignment.append(new_aln)
在上面的示例中,new_alignment
将是
[('św-----iat--', '-wyrzuci--sz', 2.0, 0, 12)]
随心所欲。
我正尝试在 biopython
中使用 运行 成对全局比对方法循环处理大约 10000 对字符串。每个字符串平均长度为 20 个字符。 运行 一对序列的方法工作正常。但是 运行 在一个循环中,低至 4 对,会导致分段错误。如何解决?
from Bio import pairwise2
def myTrial(source,targ):
if source == targ:
return [source,targ,source]
alignments = pairwise2.align.globalmx(source, targ,1,-0.5)
return alignments
sour = ['najprzytulniejszy', 'sadystyczny', 'wyrzucić', 'świat']
targ = ['najprzytulniejszym', 'sadystycznemu', 'wyrzucisz', 'świat']
for i in range(4):
a = myTrial(sour[i],targ[i])
发生分段错误不是因为您正在使用循环,而是因为您提供非 ASCII 字符作为仅采用 ASCII 字符串输入的对齐模式的输入。幸运的是,Bio.pairwise2.align.globalmx
还允许对齐包含任意 ASCII 和非 ASCII 字符字符串作为标记的列表(即对齐字符串列表,例如 ['ABC', 'ABD']
和 ['ABC', 'GGG']
以生成类似
['ABC', 'ABD', '-' ]
['ABC', '-' , 'GGG']
或者在您的情况下,对齐非 ASCII 字符列表(例如 ['ś', 'w', 'i', 'a', 't']
和 ['w', 'y', 'r', 'z', 'u', 'c', 'i', 's', 'z']
以生成类似
['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-']
['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z']
要使用 Biopython 完成此操作,请在您的代码中替换
alignments = pairwise2.align.globalmx(source, targ,1,-0.5)
和
alignments = pairwise2.align.globalmx(list(source), list(targ), 1, -0.5, gap_char=['-'])
所以对于
的输入source = 'świat'
targ = 'wyrzucisz'
修改后的代码会产生
[(['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-'],
['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z'],
2.0,
0,
12)]
而不是分段错误。
并且由于列表中的每个标记只有一个字符长,您还可以使用以下方法将生成的对齐列表转换回字符串:
new_alignment = []
for aln in alignment:
# Convert lists back into strings
a = ''.join(aln[0])
b = ''.join(aln[1])
new_aln = (a, b) + aln[2:]
new_alignment.append(new_aln)
在上面的示例中,new_alignment
将是
[('św-----iat--', '-wyrzuci--sz', 2.0, 0, 12)]
随心所欲。