在 python 中查找两个字符串的唯一组合
Finding unique combinations of two strings in python
我有两个字符串:
StringA: ['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
StringB: ['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
我想测试一下有多少种独特的字母组合。字符串是有序的,所以我只想匹配 StringA
位置 1 和 StringB
位置 1,StringA
位置 2 和 StringB
位置 2,等等。所以上面的字符串是 (KT), (TK), (TG), (TG), (KK), (KT), (GT), (TK), (TG), (TG), (TK), (KK), (KT)
.
并且有 5 个独特的组合:(KT), (TK), (TG), (GT), (KK)
我使用以下代码从两个 .csv 文件生成字符串。
import sys
import csv
pairlist = open(sys.argv[1], 'r')
snp_file = open(sys.argv[2], 'r')
pair = csv.reader(pairlist, delimiter=',')
snps = csv.reader(snp_file, delimiter=',')
output = open(sys.argv[1]+"_FGT_Result", 'w')
snp1 = []
snp2 = []
firstpair = pair.next()
locusa = firstpair[0]
locusb = firstpair[1]
f = snps
#search = snp.readlines()
for i, row in enumerate(f):
if locusa in row:
hita = row
#print hita
snp1.append(hita[2])
if locusb in row:
hitb = row
#print hitb
snp2.append(hitb[2])
print snp1
print snp2
pairlist.close()
snp_file.close()
output.close()
但我不知道如何进行比较。我曾尝试将字符串转换为集合,正如我在另一个线程中读到的那样,这是必需的,但我不确定为什么,我无法让它工作。
只需使用 zip
和 set
组合两个字符串列表并获得唯一组合。我对 return 组合字符串使用了列表理解:
>>> unique = [''.join(x) for x in set(list(zip(StringA, StringB)))]
>>> unique
['TG', 'GT', 'KT', 'TK', 'KK']
或者,如果您只想将它们放在 set
中,您可以删除列表理解:
>>> unique = set(zip(StringA, StringB))
>>> unique
{('T', 'K'), ('T', 'G'), ('K', 'K'), ('K', 'T'), ('G', 'T')}
您可以使用 zip
函数和 set
创建预期列表:
>>> z=set(zip(a,b))
>>> z
set([('T', 'G'), ('K', 'T'), ('T', 'K'), ('G', 'T'), ('K', 'K')])
然后使用 itertools
模块中的 chain
和 combinations
函数来创建组合:
>>> a=['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
>>> b=['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
>>> from itertools import combinations,chain
>>> z=[''.join(k) for k in set(zip(a,b))]
>>> z
['TG', 'KT', 'TK', 'GT', 'KK']
>>> list(chain.from_iterable(combinations(z, r) for r in range(len(z)+1)))
[(), ('TG',), ('KT',), ('TK',), ('GT',), ('KK',), ('TG', 'KT'), ('TG', 'TK'), ('TG', 'GT'), ('TG', 'KK'), ('KT', 'TK'), ('KT', 'GT'), ('KT', 'KK'), ('TK', 'GT'), ('TK', 'KK'), ('GT', 'KK'), ('TG', 'KT', 'TK'), ('TG', 'KT', 'GT'), ('TG', 'KT', 'KK'), ('TG', 'TK', 'GT'), ('TG', 'TK', 'KK'), ('TG', 'GT', 'KK'), ('KT', 'TK', 'GT'), ('KT', 'TK', 'KK'), ('KT', 'GT', 'KK'), ('TK', 'GT', 'KK'), ('TG', 'KT', 'TK', 'GT'), ('TG', 'KT', 'TK', 'KK'), ('TG', 'KT', 'GT', 'KK'), ('TG', 'TK', 'GT', 'KK'), ('KT', 'TK', 'GT', 'KK'), ('TG', 'KT', 'TK', 'GT', 'KK')]
snp1 = ['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
snp2 = ['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
combinations = []
for a,b in zip(snp1, snp2):
combinations.append(a+b)
print list(set(combinations))
输出:
['KK', 'TG', 'GT', 'TK', 'KT']
或者一个简单的衬垫就可以了:
list(set([a+b for a,b in zip(snp1, snp2)]))
输出:
['KK', 'TG', 'GT', 'TK', 'KT']
我有两个字符串:
StringA: ['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
StringB: ['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
我想测试一下有多少种独特的字母组合。字符串是有序的,所以我只想匹配 StringA
位置 1 和 StringB
位置 1,StringA
位置 2 和 StringB
位置 2,等等。所以上面的字符串是 (KT), (TK), (TG), (TG), (KK), (KT), (GT), (TK), (TG), (TG), (TK), (KK), (KT)
.
并且有 5 个独特的组合:(KT), (TK), (TG), (GT), (KK)
我使用以下代码从两个 .csv 文件生成字符串。
import sys
import csv
pairlist = open(sys.argv[1], 'r')
snp_file = open(sys.argv[2], 'r')
pair = csv.reader(pairlist, delimiter=',')
snps = csv.reader(snp_file, delimiter=',')
output = open(sys.argv[1]+"_FGT_Result", 'w')
snp1 = []
snp2 = []
firstpair = pair.next()
locusa = firstpair[0]
locusb = firstpair[1]
f = snps
#search = snp.readlines()
for i, row in enumerate(f):
if locusa in row:
hita = row
#print hita
snp1.append(hita[2])
if locusb in row:
hitb = row
#print hitb
snp2.append(hitb[2])
print snp1
print snp2
pairlist.close()
snp_file.close()
output.close()
但我不知道如何进行比较。我曾尝试将字符串转换为集合,正如我在另一个线程中读到的那样,这是必需的,但我不确定为什么,我无法让它工作。
只需使用 zip
和 set
组合两个字符串列表并获得唯一组合。我对 return 组合字符串使用了列表理解:
>>> unique = [''.join(x) for x in set(list(zip(StringA, StringB)))]
>>> unique
['TG', 'GT', 'KT', 'TK', 'KK']
或者,如果您只想将它们放在 set
中,您可以删除列表理解:
>>> unique = set(zip(StringA, StringB))
>>> unique
{('T', 'K'), ('T', 'G'), ('K', 'K'), ('K', 'T'), ('G', 'T')}
您可以使用 zip
函数和 set
创建预期列表:
>>> z=set(zip(a,b))
>>> z
set([('T', 'G'), ('K', 'T'), ('T', 'K'), ('G', 'T'), ('K', 'K')])
然后使用 itertools
模块中的 chain
和 combinations
函数来创建组合:
>>> a=['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
>>> b=['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
>>> from itertools import combinations,chain
>>> z=[''.join(k) for k in set(zip(a,b))]
>>> z
['TG', 'KT', 'TK', 'GT', 'KK']
>>> list(chain.from_iterable(combinations(z, r) for r in range(len(z)+1)))
[(), ('TG',), ('KT',), ('TK',), ('GT',), ('KK',), ('TG', 'KT'), ('TG', 'TK'), ('TG', 'GT'), ('TG', 'KK'), ('KT', 'TK'), ('KT', 'GT'), ('KT', 'KK'), ('TK', 'GT'), ('TK', 'KK'), ('GT', 'KK'), ('TG', 'KT', 'TK'), ('TG', 'KT', 'GT'), ('TG', 'KT', 'KK'), ('TG', 'TK', 'GT'), ('TG', 'TK', 'KK'), ('TG', 'GT', 'KK'), ('KT', 'TK', 'GT'), ('KT', 'TK', 'KK'), ('KT', 'GT', 'KK'), ('TK', 'GT', 'KK'), ('TG', 'KT', 'TK', 'GT'), ('TG', 'KT', 'TK', 'KK'), ('TG', 'KT', 'GT', 'KK'), ('TG', 'TK', 'GT', 'KK'), ('KT', 'TK', 'GT', 'KK'), ('TG', 'KT', 'TK', 'GT', 'KK')]
snp1 = ['K', 'T', 'T', 'T', 'K', 'K', 'G', 'T', 'T', 'T', 'T', 'K', 'K']
snp2 = ['T', 'K', 'G', 'G', 'K', 'T', 'T', 'K', 'G', 'G', 'K', 'K', 'T']
combinations = []
for a,b in zip(snp1, snp2):
combinations.append(a+b)
print list(set(combinations))
输出:
['KK', 'TG', 'GT', 'TK', 'KT']
或者一个简单的衬垫就可以了:
list(set([a+b for a,b in zip(snp1, snp2)]))
输出:
['KK', 'TG', 'GT', 'TK', 'KT']