迭代 BLAST 寻找同源基因

Question

我是编程新手，过去几周我一直在研究生物信息学问题，但进展非常有限。

我有一个包含大量基因组的大型 FASTA 文件，我希望运行进行全对所有 BLAST 搜索，该搜索将识别 homologs/orthologs（通过 >=95% 来识别）在我的文件中使用 -outfmt 6) 在它们的长度上进行序列相似性并将这些和 non-homologous/orthologous 基因打印到有机体与基因 presence/absence 矩阵（“1”=存在，“0”=不存在。我有人建议交互式全对全 BLAST 将所有 homologies/orthologies 更新到一个文件，然后从数据库中删除这些并重复该过程，直到无法执行更多相关的 BLAST 搜索可能是解决此问题的一种方法，但尽管我付出了努力，但我什至不知道该怎么做。我宁愿在 Python 和/或 Unix/Linux 中尽可能做到这一点。

有人可以帮忙吗？

例如：

如果我有 3 个生物体和 4 个基因，如果 BLAST 结果显示 Gene_1 存在于 Organisms_1 中，并且 2； Gene_2存在于所有有机体中，Gene_3仅存在于Organism_1中，Gene_4仅存在于Organism_3中。

    Gene_1  Gene_2  Gene_3  Gene_4
Org_1   1       1       1       0       
Org_2   1       1       0       0
Org_3   0       1       0       1

Answer 1

如果我没理解错，您需要获取以下信息：

-哪些是 homologs/orthologs 基因

-它们出现在哪个物种中

有一个程序几乎可以完成所有这一切，让我向您介绍 SiLiX

http://lbbe.univ-lyon1.fr/SiLiX

您可以下载它并将其参数化为您 95% 的身份，您 "feed it" 所有人对所有人爆炸的结果。你会得到一个包含你想要的信息的文件！

该文件易于解析（尤其是在 python 中），因此您可以从中提取所需的所有信息。所以你可以从中创建你的矩阵。

迭代 BLAST 寻找同源基因

Iterative BLAST to find homologous genes

python

bioinformatics

matrix

blast