如何使用 Bio.PDB 分别保存 PDB 文件中的每个配体?
How to save each ligand from a PDB file separately with Bio.PDB?
我有一个 PDB 文件列表。我想通过使用 BioPython.
中的 Bio.PDB 模块提取所有文件的配体(因此,杂原子)并将每个文件分别保存到 PDB 文件中
我尝试了一些解决方案,比如这个:Remove heteroatoms from PDB,我试图调整这些解决方案以保留杂原子。但是我得到的只是在同一个文件中包含所有配体的文件。
我也试过这样的事情:
def accept_residue(residue):
""" Recognition of heteroatoms - Remove water molecules """
res = residue.id[0]
if res != " ": # Heteroatoms have some flags, that's why we keep only residue with id != " "
if res != "W": # Don't take in consideration the water molecules
return True
def extract_ligands(path):
""" Extraction of the heteroatoms of .pdb files """
for element in os.listdir(path+'/data/pdb'):
i=1
if element.endswith('.pdb'):
if not element.startswith("lig_"):
pdb = PDBParser().get_structure(element[:-4], path+'/data/pdb/'+element)
io = PDBIO()
io.set_structure(pdb)
for model in pdb:
for chain in model:
for residue in chain:
if accept_residue(residue):
io.save("lig_"+element[:-4]+"_"+str(i)+".pdb", accept_residue(residue))
i += 1 # Counter for the result filename
# Main
path = mypath
extract_ligands(path)
显然,它引发了一个错误:
AttributeError: 'bool' object has no attribute 'accept_model'
我知道那是因为我的 "io.save" 中的 "accept_residue()"。
但是我没有找到任何合乎逻辑的解决方案来做我想做的事...
最后,我尝试了一个像这样的解决方案,chain.detach_child() :
...
for chain in model:
for residue in chain:
res = residue.id[0]
if res == " " or res == "W":
chain.detach_child(residue.id)
if len(chain) == 0:
model.detach_child(chain.id)
...
在我看来,它会 "detach" 所有不是杂原子的残基 ( res.id[0] == " ") 和所有水 ( res.id[0] == "W")。但总的来说,所有的残留物和水都还在,而且有问题。
那么,是否可以做我需要的事情? (从我所有的文件中提取所有配体,并分别在PDB文件中一一保存)
(对不起我的英语不好,最终我在 Python 的技能不好:/)
你们很接近。
但是您必须提供 Select
class 作为 io.save
的第二个参数。看看文档评论。它说这个参数应该提供 accept_model
、accept_chain
、accept_residue
和 accept_atom
。
我创建了一个继承自 Bio.PDB.PDBIO.Select
的 class ResidueSelect
。这样我只需要覆盖我们需要的方法。在我们的例子中,链和残基。
因为我们只想保存当前链中的当前残基,所以我为构造函数提供了两个各自的参数。
import os
from Bio.PDB import PDBParser, PDBIO, Select
def is_het(residue):
res = residue.id[0]
return res != " " and res != "W"
class ResidueSelect(Select):
def __init__(self, chain, residue):
self.chain = chain
self.residue = residue
def accept_chain(self, chain):
return chain.id == self.chain.id
def accept_residue(self, residue):
""" Recognition of heteroatoms - Remove water molecules """
return residue == self.residue and is_het(residue)
def extract_ligands(path):
""" Extraction of the heteroatoms of .pdb files """
for pfb_file in os.listdir(path + '/data/pdb'):
i = 1
if pfb_file.endswith('.pdb') and not pfb_file.startswith("lig_"):
pdb_code = pfb_file[:-4]
pdb = PDBParser().get_structure(pdb_code, path + '/data/pdb/' + pfb_file)
io = PDBIO()
io.set_structure(pdb)
for model in pdb:
for chain in model:
for residue in chain:
if not is_het(residue):
continue
print(f"saving {chain} {residue}")
io.save(f"lig_{pdb_code}_{i}.pdb", ResidueSelect(chain, residue))
i += 1
# Main
path = mypath
extract_ligands(path)
顺便说一句:我试图在这个过程中稍微提高你的代码的可读性......
我有一个 PDB 文件列表。我想通过使用 BioPython.
中的 Bio.PDB 模块提取所有文件的配体(因此,杂原子)并将每个文件分别保存到 PDB 文件中我尝试了一些解决方案,比如这个:Remove heteroatoms from PDB,我试图调整这些解决方案以保留杂原子。但是我得到的只是在同一个文件中包含所有配体的文件。
我也试过这样的事情:
def accept_residue(residue):
""" Recognition of heteroatoms - Remove water molecules """
res = residue.id[0]
if res != " ": # Heteroatoms have some flags, that's why we keep only residue with id != " "
if res != "W": # Don't take in consideration the water molecules
return True
def extract_ligands(path):
""" Extraction of the heteroatoms of .pdb files """
for element in os.listdir(path+'/data/pdb'):
i=1
if element.endswith('.pdb'):
if not element.startswith("lig_"):
pdb = PDBParser().get_structure(element[:-4], path+'/data/pdb/'+element)
io = PDBIO()
io.set_structure(pdb)
for model in pdb:
for chain in model:
for residue in chain:
if accept_residue(residue):
io.save("lig_"+element[:-4]+"_"+str(i)+".pdb", accept_residue(residue))
i += 1 # Counter for the result filename
# Main
path = mypath
extract_ligands(path)
显然,它引发了一个错误:
AttributeError: 'bool' object has no attribute 'accept_model'
我知道那是因为我的 "io.save" 中的 "accept_residue()"。 但是我没有找到任何合乎逻辑的解决方案来做我想做的事...
最后,我尝试了一个像这样的解决方案,chain.detach_child() :
...
for chain in model:
for residue in chain:
res = residue.id[0]
if res == " " or res == "W":
chain.detach_child(residue.id)
if len(chain) == 0:
model.detach_child(chain.id)
...
在我看来,它会 "detach" 所有不是杂原子的残基 ( res.id[0] == " ") 和所有水 ( res.id[0] == "W")。但总的来说,所有的残留物和水都还在,而且有问题。
那么,是否可以做我需要的事情? (从我所有的文件中提取所有配体,并分别在PDB文件中一一保存)
(对不起我的英语不好,最终我在 Python 的技能不好:/)
你们很接近。
但是您必须提供 Select
class 作为 io.save
的第二个参数。看看文档评论。它说这个参数应该提供 accept_model
、accept_chain
、accept_residue
和 accept_atom
。
我创建了一个继承自 Bio.PDB.PDBIO.Select
的 class ResidueSelect
。这样我只需要覆盖我们需要的方法。在我们的例子中,链和残基。
因为我们只想保存当前链中的当前残基,所以我为构造函数提供了两个各自的参数。
import os
from Bio.PDB import PDBParser, PDBIO, Select
def is_het(residue):
res = residue.id[0]
return res != " " and res != "W"
class ResidueSelect(Select):
def __init__(self, chain, residue):
self.chain = chain
self.residue = residue
def accept_chain(self, chain):
return chain.id == self.chain.id
def accept_residue(self, residue):
""" Recognition of heteroatoms - Remove water molecules """
return residue == self.residue and is_het(residue)
def extract_ligands(path):
""" Extraction of the heteroatoms of .pdb files """
for pfb_file in os.listdir(path + '/data/pdb'):
i = 1
if pfb_file.endswith('.pdb') and not pfb_file.startswith("lig_"):
pdb_code = pfb_file[:-4]
pdb = PDBParser().get_structure(pdb_code, path + '/data/pdb/' + pfb_file)
io = PDBIO()
io.set_structure(pdb)
for model in pdb:
for chain in model:
for residue in chain:
if not is_het(residue):
continue
print(f"saving {chain} {residue}")
io.save(f"lig_{pdb_code}_{i}.pdb", ResidueSelect(chain, residue))
i += 1
# Main
path = mypath
extract_ligands(path)
顺便说一句:我试图在这个过程中稍微提高你的代码的可读性......