用 python(蛋白质结构文件)解析 PDB 头信息?

parsing PDB header information with python (protein structure files)?

是否有 PDB 文件(蛋白质数据库)的解析器可以从 header/REMARK-section 中提取(大部分)信息,如细化统计等?

可能值得注意的是,我主要感兴趣的是在文件生成后立即从文件中访问数据,而不是从已经存放在蛋白质数据库中的结构中访问数据。这意味着需要处理多种不同的 "propriety" 格式,具体取决于所使用的优化软件。

我看过 Biopython,但他们在常见问题解答中明确指出 "If you are interested in data mining the PDB header, you might want to look elsewhere because there is only limited support for this."

我很清楚从 mmCIF 文件中提取这些信息会容易得多,但不幸的是,这些信息仍然不是许多大分子晶体学程序的常规输出。

也许你应该试试那个图书馆? https://pypi.python.org/pypi/bioservices

到目前为止,我发现的最佳方法是使用 pdb_extract(http://pdb-extract.wwpdb.org/,在线或独立)将 PDB 文件转换为 mmcif 格式。

可以使用 Biopythons Bio.PDB-模块解析 mmcif 文件。 写入 mmcif 文件有点棘手,Python PDBx 似乎工作得相当好。

这个和其他有用的 PDB-/mmcif-tools 可以在 http://mmcif.wwpdb.org/docs/software-resources.html

找到