根据序列与基因组的模式匹配创建生物列表
create list of organisms based on pattern matching of sequence to a genome
我有一个包含两列的数据框,第一列是生物的名称,第二列是一串字母的序列。我正在尝试创建一种算法来查看生物体的序列是否在也由字母组成的更大基因组的字符串中。如果它在基因组中,我想将生物体的名称添加到列表中。因此,例如,如果流感在下面的基因组中,我希望将流感添加到列表中。
dict_1={'organisms':['flu', 'cold', 'stomach bug'], 'seq_list':['HTIDIJEKODKDMRM',
'AGGTTTEFGFGEERDDTER', 'EGHDGGEDCGRDSGRDCFD']}
df=pd.DataFrame(dict_1)
organisms seq_list
0 flu HTIDIJEKODKDMRM
1 cold AGGTTTEFGFGEERDDTER
2 stomach bug EGHDGGEDCGRDSGRDCFD
genome='TLTPSRDMEDHTIDIJEKODKDMRM'
如果存在其中 p 是有机体且 t 是基因组的匹配项,则第一个函数会找到匹配项的索引。第二部分是我遇到的麻烦。我正在尝试使用 for 循环来搜索 df 中的每个条目,但是如果我得到匹配项,我不确定如何引用 df 中的第一列以将名称添加到空列表中。感谢您的帮助!
def naive(p, t):
occurences = []
for i in range(len(t) - len(p) + 1):
match = True
for j in range(len(p)):
if t[i+j] != p[j]:
match = False
break
if match:
occurences.append(i)
return occurences
Organisms_that_matched = []
for x in df:
matches=naive(genome, x)
if len(matches) > 0:
#add name of organism to Organisms_that_matched list
我不确定您是否正在学习在列表中横向和应用自定义逻辑的不同方法,但您可以使用 list comprehensions:
import pandas as pd
dict_1 = {
'organisms': ['flu', 'cold', 'stomach bug'],
'seq_list': ['HTIDIJEKODKDMRM', 'AGGTTTEFGFGEERDDTER', 'EGHDGGEDCGRDSGRDCFD']}
df = pd.DataFrame(dict_1)
genome = 'TLTPSRDMEDHTIDIJEKODKDMRM'
organisms_that_matched = [dict_1['organisms'][index] for index, x in enumerate(dict_1['seq_list']) if x in genome]
print(organisms_that_matched)
我有一个包含两列的数据框,第一列是生物的名称,第二列是一串字母的序列。我正在尝试创建一种算法来查看生物体的序列是否在也由字母组成的更大基因组的字符串中。如果它在基因组中,我想将生物体的名称添加到列表中。因此,例如,如果流感在下面的基因组中,我希望将流感添加到列表中。
dict_1={'organisms':['flu', 'cold', 'stomach bug'], 'seq_list':['HTIDIJEKODKDMRM',
'AGGTTTEFGFGEERDDTER', 'EGHDGGEDCGRDSGRDCFD']}
df=pd.DataFrame(dict_1)
organisms seq_list
0 flu HTIDIJEKODKDMRM
1 cold AGGTTTEFGFGEERDDTER
2 stomach bug EGHDGGEDCGRDSGRDCFD
genome='TLTPSRDMEDHTIDIJEKODKDMRM'
如果存在其中 p 是有机体且 t 是基因组的匹配项,则第一个函数会找到匹配项的索引。第二部分是我遇到的麻烦。我正在尝试使用 for 循环来搜索 df 中的每个条目,但是如果我得到匹配项,我不确定如何引用 df 中的第一列以将名称添加到空列表中。感谢您的帮助!
def naive(p, t):
occurences = []
for i in range(len(t) - len(p) + 1):
match = True
for j in range(len(p)):
if t[i+j] != p[j]:
match = False
break
if match:
occurences.append(i)
return occurences
Organisms_that_matched = []
for x in df:
matches=naive(genome, x)
if len(matches) > 0:
#add name of organism to Organisms_that_matched list
我不确定您是否正在学习在列表中横向和应用自定义逻辑的不同方法,但您可以使用 list comprehensions:
import pandas as pd
dict_1 = {
'organisms': ['flu', 'cold', 'stomach bug'],
'seq_list': ['HTIDIJEKODKDMRM', 'AGGTTTEFGFGEERDDTER', 'EGHDGGEDCGRDSGRDCFD']}
df = pd.DataFrame(dict_1)
genome = 'TLTPSRDMEDHTIDIJEKODKDMRM'
organisms_that_matched = [dict_1['organisms'][index] for index, x in enumerate(dict_1['seq_list']) if x in genome]
print(organisms_that_matched)