基因蛋白质序列数据库

Gene Protein Sequence Database

我想知道是否有办法从 NCBI 下载或检索基因的所有蛋白质序列。我有很多 GeneID,我想迭代并检索它们的蛋白质序列。

是否有我使用的软件包或 link 来自 NCBI 的基因蛋白质序列?

如果我没看错的话,你可以直接从NCBI网站上下载数据。搜索'protein sequences of genes' it returns 45260条记录,点击send to(right-top角)即可下载,另存为文件。 检查 here。下载后,您可以简单地从文件中加载数据。

如果您询问以编程方式下载数据,您可以使用 this FTP, download latest data, unpack and find what you were looking for, filtering by GeneID. Most of these files are updated daily. You can read more here 并根据此选择包含您需要的数据的文件。就我而言,您需要 gene2accession.gzgene2refseq.gz