下载 RCSB 蛋白质数据库中的所有 heteroComplex 蛋白质 PDB ID

Download all the heteroComplex protein PDB IDs in RCSB Protein Data Bank

I want to Download all the HeteroComplex protein PDB IDs, which are in the Protein Data Bank(由两种或多种不同类型的链组成的所有PDB ID。例如PDB ID XXXX将由链 A 和链 B。不包含两个链“A”。)。有人知道 python 程序可以做到这一点吗?

提前致谢。

我认为您可能想要一个具有不同实体的 PDB 结构 (https://www.rcsb.org/pages/help/advancedsearch/numberOfEntities):

Unlike chains, entities do not include duplicate copies.

您可以搜索包含两个或更多不同蛋白质实体的 PDB 结构,并使用 Python 包 Biotite (https://www.biotite-python.org) 下载它们:

import biotite.database.rcsb as rcsb
pdb_ids = rcsb.search(rcsb.EntityCountQuery(min=2, entity_type="protein"))
rcsb.fetch(pdb_ids, format="pdb", target_path="some/directory", verbose=True)