Biopython Entrez 能否从 PMID 列表中提取完整的 Pubmed 文章?

Can Biopython Entrez pull full Pubmed articles from a list of PMIDs?

过去 2 天我一直在阅读文档和测试 Entrez 功能,我让它正常工作,因此它可以很好地从 PMID 中提取摘要。

但是关于 Entrez 是否可以提取全文正文的文本版本,而不仅仅是摘要字段,我找不到明确的 yes/no 答案。

我想我可能在 XML 解析中遗漏了一些东西,只需要稍微说明一下,因为我无法在文档中找到它。非常感谢您的帮助。

它无法提取完整的文章文本(或 pdf)。您可以尝试通过 metapub 下载 pdf。如果你只想要文本,你可以通过 textract.

提取它
import metapub
from urllib.request import urlretrieve
import textract

pmid = '20147967'

url = metapub.FindIt(pmid).url

urlretrieve(url, any_path)

with open(another_path, "w") as textfile:
    textfile.write(textract.process(
        any_path,
        extension='pdf',
        method='pdftotext',
        encoding="utf_8",
    ))