如何从文章网页判断文章PDF下载link?

How to determine the article PDF download link from the article webpage?

我想从我的 DOI 列表中自动下载一些文章(大约 1500 篇)。使用 doi.org 我可以获得他们每个人的网站内容。但问题是每个网站都是独一无二的,我不知道如何在众多 href 中确定下载 link。请在 Python 中提出任何对此类目标有用的建议?

P. S. 演讲内容是关于免费获取的文章。所以我可以确定 link 存在。

事实证明,最方便的方法是使用 metapub 库。请注意,它需要 Visual Studio C++ 2015 和 recenter.

import metapub
from urllib.request import urlretrieve

def downloadByDOI(doi, handle):
    def download(url, handle):
        try:
            urlretrieve(url, handle)
        except:
            download(url, handle)
    
    url = metapub.FindIt(doi=doi).url
    download(url, handle)