python：遍历动态列表

Question

从一组序列（字符串）中，我想生成一个子集字典，其中每个序列代表一个键，值应该是最多匹配 "match" 的所有序列（例如1) positions，既有原始序列（key），也有当时在子集中的所有值条目。

例如，考虑由"A"、"C"和"G"和"T"组成的所有长度为3的序列，键值对之一应该是（或者可能是，因为有更多可能的方法 select 这样的集合）。

这是我想出的定义：

def pick(seq,superset):
    subset = [seq]
    for seq in subset:
        count = 0
        for item in superset:
            if len([i for i, j in zip(list(seq),list(item)) if i==j])==match:
                count += 1
                if len(subset)==count:
                    subset += [''.join(item)]
    return subset

我得到的：

{'AAA': ['AAA', 'ACC', 'ACG', 'ACT', 'AGC', 'AGG', 'AGT', 'ATC', 'ATG', 'ATT', 'CAC', 'CAG',
'CAT', 'CCA', 'CGA', 'CTA', 'GAC', 'GAG', 'GAT', 'GCA', 'GGA', 'GTA', 'TAC', 'TAG', 'TAT',
'TCA', 'TGA', 'TTA']}

我想要的：

{'AAA': ['CCC','GGG','TTT','ACG','CGT','GTA','TAC']}

我运行遇到的问题是，我现在只生成一个子集，其中值与键的匹配不超过一个位置，但值序列确实有多个位置特定匹配子集中的其他值。有人有解决这个问题的（优雅的）解决方案吗？

Answer 1

我将你的问题解释为 "I want to get a list of all items in superset that have somewhere between 0 and match matching characters with seq. But right now my function returns a list of all items that have exactly match matching characters. Also the first element of the returned list is equal to seq, which I don't want."

出现第一个问题是因为你在比较匹配时使用了“==”，而不是“<=”。出现第二个问题是因为您将 subset 初始化为包含 seq，即使您不需要这样做。也没有必要有两个 for 循环。此外，在向列表中添加项目时，请考虑使用 append 而不是 +=，因为它几乎总是更有效率。

def pick(seq,superset,match):
    subset = []
    for item in superset:
        if len([i for i, j in zip(list(seq),list(item)) if i==j])<=match:
            subset.append(''.join(item))
    return subset

superset = [
    'GGG', 'GGC', 'GGA', 'GGT', 'GCG', 'GCC', 'GCA', 'GCT', 'GAG', 'GAC', 'GAA', 'GAT', 'GTG', 'GTC', 'GTA', 'GTT', 
    'CGG', 'CGC', 'CGA', 'CGT', 'CCG', 'CCC', 'CCA', 'CCT', 'CAG', 'CAC', 'CAA', 'CAT', 'CTG', 'CTC', 'CTA', 'CTT', 
    'AGG', 'AGC', 'AGA', 'AGT', 'ACG', 'ACC', 'ACA', 'ACT', 'AAG', 'AAC', 'AAA', 'AAT', 'ATG', 'ATC', 'ATA', 'ATT', 
    'TGG', 'TGC', 'TGA', 'TGT', 'TCG', 'TCC', 'TCA', 'TCT', 'TAG', 'TAC', 'TAA', 'TAT', 'TTG', 'TTC', 'TTA', 'TTT'
]

seq = "AAA"

print pick(seq, superset, 1)

结果（为清楚起见，我添加了换行符）：

['GGG', 'GGC', 'GGA', 'GGT', 'GCG', 'GCC', 'GCA', 'GCT', 'GAG', 'GAC', 'GAT', 'GTG', 'GTC', 'GTA', 'GTT', 
'CGG', 'CGC', 'CGA', 'CGT', 'CCG', 'CCC', 'CCA', 'CCT', 'CAG', 'CAC', 'CAT', 'CTG', 'CTC', 'CTA', 'CTT', 
'AGG', 'AGC', 'AGT', 'ACG', 'ACC', 'ACT', 'ATG', 'ATC', 'ATT', 
'TGG', 'TGC', 'TGA', 'TGT', 'TCG', 'TCC', 'TCA', 'TCT', 'TAG', 'TAC', 'TAT', 'TTG', 'TTC', 'TTA', 'TTT']

编辑：如果每个潜在项目还必须满足与子集中所有其他现有元素的匹配条件，您可以使用 all 和列表理解来检查这一点。请注意，函数返回的值将取决于 superset 的顺序，因为有多个不同的局部最大值可以满足条件。

def similarity(a,b):
    return sum(1 for p,q in zip(a,b) if p==q)

def pick(seq, superset, match):
    subset = []
    for item in superset:
        if similarity(item, seq) <= match and all(similarity(item, x) <= match for x in subset):
            subset.append(item)
    return subset

superset = [
    'GGG', 'GGC', 'GGA', 'GGT', 'GCG', 'GCC', 'GCA', 'GCT', 'GAG', 'GAC', 'GAA', 'GAT', 'GTG', 'GTC', 'GTA', 'GTT', 
    'CGG', 'CGC', 'CGA', 'CGT', 'CCG', 'CCC', 'CCA', 'CCT', 'CAG', 'CAC', 'CAA', 'CAT', 'CTG', 'CTC', 'CTA', 'CTT', 
    'AGG', 'AGC', 'AGA', 'AGT', 'ACG', 'ACC', 'ACA', 'ACT', 'AAG', 'AAC', 'AAA', 'AAT', 'ATG', 'ATC', 'ATA', 'ATT', 
    'TGG', 'TGC', 'TGA', 'TGT', 'TCG', 'TCC', 'TCA', 'TCT', 'TAG', 'TAC', 'TAA', 'TAT', 'TTG', 'TTC', 'TTA', 'TTT'
]

seq = "AAA"

print pick(seq, superset, 1)

结果：

['GGG', 'GCC', 'GAT', 'GTA', 'CGC', 'CCG', 'CTT', 'AGT', 'ATG', 'TGA', 'TCT', 'TAG', 'TTC']

python：遍历动态列表

python: iterate through dynamic list

python

iterable

list

dynamic