Biopython Entrez 能否从 PMID 列表中提取完整的 Pubmed 文章？

Question

过去 2 天我一直在阅读文档和测试 Entrez 功能，我让它正常工作，因此它可以很好地从 PMID 中提取摘要。

但是关于 Entrez 是否可以提取全文正文的文本版本，而不仅仅是摘要字段，我找不到明确的 yes/no 答案。

我想我可能在 XML 解析中遗漏了一些东西，只需要稍微说明一下，因为我无法在文档中找到它。非常感谢您的帮助。

Answer 1

它无法提取完整的文章文本（或 pdf）。您可以尝试通过 metapub 下载 pdf。如果你只想要文本，你可以通过 textract.

提取它

import metapub
from urllib.request import urlretrieve
import textract

pmid = '20147967'

url = metapub.FindIt(pmid).url

urlretrieve(url, any_path)

with open(another_path, "w") as textfile:
    textfile.write(textract.process(
        any_path,
        extension='pdf',
        method='pdftotext',
        encoding="utf_8",
    ))

Biopython Entrez 能否从 PMID 列表中提取完整的 Pubmed 文章？

Can Biopython Entrez pull full Pubmed articles from a list of PMIDs?

bioinformatics

biopython