Biopython Entrez 能否从 PMID 列表中提取完整的 Pubmed 文章?
Can Biopython Entrez pull full Pubmed articles from a list of PMIDs?
过去 2 天我一直在阅读文档和测试 Entrez 功能,我让它正常工作,因此它可以很好地从 PMID 中提取摘要。
但是关于 Entrez 是否可以提取全文正文的文本版本,而不仅仅是摘要字段,我找不到明确的 yes/no 答案。
我想我可能在 XML 解析中遗漏了一些东西,只需要稍微说明一下,因为我无法在文档中找到它。非常感谢您的帮助。
它无法提取完整的文章文本(或 pdf)。您可以尝试通过 metapub
下载 pdf。如果你只想要文本,你可以通过 textract
.
提取它
import metapub
from urllib.request import urlretrieve
import textract
pmid = '20147967'
url = metapub.FindIt(pmid).url
urlretrieve(url, any_path)
with open(another_path, "w") as textfile:
textfile.write(textract.process(
any_path,
extension='pdf',
method='pdftotext',
encoding="utf_8",
))
过去 2 天我一直在阅读文档和测试 Entrez 功能,我让它正常工作,因此它可以很好地从 PMID 中提取摘要。
但是关于 Entrez 是否可以提取全文正文的文本版本,而不仅仅是摘要字段,我找不到明确的 yes/no 答案。
我想我可能在 XML 解析中遗漏了一些东西,只需要稍微说明一下,因为我无法在文档中找到它。非常感谢您的帮助。
它无法提取完整的文章文本(或 pdf)。您可以尝试通过 metapub
下载 pdf。如果你只想要文本,你可以通过 textract
.
import metapub
from urllib.request import urlretrieve
import textract
pmid = '20147967'
url = metapub.FindIt(pmid).url
urlretrieve(url, any_path)
with open(another_path, "w") as textfile:
textfile.write(textract.process(
any_path,
extension='pdf',
method='pdftotext',
encoding="utf_8",
))