迭代 BLAST 寻找同源基因

Iterative BLAST to find homologous genes

我是编程新手,过去几周我一直在研究生物信息学问题,但进展非常有限。

我有一个包含大量基因组的大型 FASTA 文件,我希望 运行 进行全对所有 BLAST 搜索,该搜索将识别 homologs/orthologs(通过 >=95% 来识别)在我的文件中使用 -outfmt 6) 在它们的长度上进行序列相似性并将这些和 non-homologous/orthologous 基因打印到有机体与基因 presence/absence 矩阵(“1”=存在,“0”=不存在。我有人建议交互式全对全 BLAST 将所有 homologies/orthologies 更新到一个文件,然后从数据库中删除这些并重复该过程,直到无法执行更多相关的 BLAST 搜索可能是解决此问题的一种方法,但尽管我付出了努力,但我什至不知道该怎么做。我宁愿在 Python 和/或 Unix/Linux 中尽可能做到这一点。

有人可以帮忙吗?

例如:

如果我有 3 个生物体和 4 个基因,如果 BLAST 结果显示 Gene_1 存在于 Organisms_1 中,并且 2; Gene_2存在于所有有机体中,Gene_3仅存在于Organism_1中,Gene_4仅存在于Organism_3中。

    Gene_1  Gene_2  Gene_3  Gene_4
Org_1   1       1       1       0       
Org_2   1       1       0       0
Org_3   0       1       0       1

如果我没理解错,您需要获取以下信息:

-哪些是 homologs/orthologs 基因

-它们出现在哪个物种中

有一个程序几乎可以完成所有这一切,让我向您介绍 SiLiX

http://lbbe.univ-lyon1.fr/SiLiX

您可以下载它并将其参数化为您 95% 的身份,您 "feed it" 所有人对所有人爆炸的结果。你会得到一个包含你想要的信息的文件!

该文件易于解析(尤其是在 python 中),因此您可以从中提取所需的所有信息。所以你可以从中创建你的矩阵。