如何比较蛋白质序列以找到最接近的匹配项

How can I compare protein sequences to find closest match

我如何构建一个工具来帮助处理这种情况:

我在实验室工作,我们使用质粒表达重组蛋白。我们有一个包含所有质粒标识符和它们编码的蛋白质序列的数据库。

当需要新的蛋白质时,我希望能够输入新的所需蛋白质序列并在我们的数据库中搜索与该序列最匹配且同一性得分最高的质粒。 objective 是然后使用该现有质粒并将其用作新质粒的克隆模板。

换句话说,我想构建一个类似于 NCBI blast 的工具,它可以在本地使用 SQL 数据库中的专有序列。

Python能做到吗?

谢谢!

如何使用 makeblastdb 创建您自己的本地 BLAST 数据库?然后你可以使用这样的东西:

from Bio.Blast.Applications import NcbiblastnCommandline

run_command = NcbiblastnCommandline(query=YOUR_SEQUENCE_FASTA_PATH,
                                    db=DATABASE_PATH,
                                    out=RESULT_PATH,
                                    outfmt=5,
                                    [… other parameters …],
                                    evalue=1e-10
                                   )
stdout, stderr = run_command()