Python 2.7 - 识别致病性岛 - 计算字符串各部分的 GC 含量

Question

我正在尝试编写一个函数来查看较长字符串的一段，计算 GC 内容，然后移动到下一段，依此类推。

我已经有计算GC含量的函数了。我在编写隔离较长字符串段的函数部分时遇到问题。

例如：我有字符串 'TATAGCATCGATCTCTGACGTATCGATCGATCGTCTATATA' 我希望函数查看前 5 个索引，调用我现有的函数来计算 GC 内容，然后继续处理下 5 个索引，依此类推，直到字符串的末尾。

这是我计算GC含量的函数。

def GCcont(DNA):
    '''calculate GC content'''
    counter=0
    for nuc in DNA:
        if nuc=='G' or nuc=='C':
            counter=counter+1
    return counter/float(len(DNA))

有人有什么建议吗？

Answer 1

我会制作一个生成器，生成你的 DNA 序列块：

def section(dna, blocksize):
    start = 0
    while True:
        end = start + blocksize
        yield dna[start:end]
        if end > len(dna):
            break
        start = end

它是这样工作的：

>>> dna = 'TATAGCATCGATCTCTGACGTATCGATCGATCGTCTATATA'
>>> list(section(dna, 5))
['TATAG', 'CATCG', 'ATCTC', 'TGACG', 'TATCG', 'ATCGA', 'TCGTC', 'TATAT', 'A']

然后计算每个块的 GC 内容就这么简单：

>>> [GCcont(block) for block in section(dna, 5)]
[0.2, 0.6, 0.4, 0.6, 0.4, 0.4, 0.6, 0.0, 0.0]

Answer 2

这是另一种方式：

def get_gc_across_sections(s):
    sections =  [s[i:i+5] for i in range(0, len(s), 5)]
    return [GCcont(section) for section in sections]

顺便说一句，Python.

中的函数名称通常使用蛇形大小写而不是驼峰形大小写

Python 2.7 - 识别致病性岛 - 计算字符串各部分的 GC 含量

Python 2.7 - Identify Pathogenicity Islands - Calculate GC Content Across Sections of a String

python

bioinformatics

biopython

python-2.7